Công nghệ Video-to-Audio (V2A) của Google DeepMind được coi là một bước tiến quan trọng trong việc tạo phim bằng trí tuệ nhân tạo, khi nó đã giải quyết thành công vấn đề thiếu hụt âm thanh sinh động trong các công cụ tạo video hiện nay. Đặc tính đặc biệt của công nghệ này là khả năng phân tích từng pixel trong video và sử dụng lời nhắc văn bản để tạo ra âm nhạc nền phù hợp với nội dung video.
Các công cụ tạo video sử dụng trí tuệ nhân tạo như Sora của OpenAI, Dream Machine của Luma AI, Gen-3 Alpha của Runway, và Veo của Google đang thu hút sự quan tâm lớn vì khả năng tạo ra các đoạn video sống động và vé một cách rất thực tế. Tuy nhiên, vấn đề thiếu âm thanh trong các sản phẩm đã giới hạn khả năng áp dụng của chúng trong ngành công nghiệp điện ảnh. V2A của Google được đánh giá cao vì không chỉ khắc phục được nhược điểm này mà còn mở ra khả năng sáng tạo cho các nhà làm phim chuyên nghiệp và người dùng không chuyên, giúp họ kết hợp nhiều công cụ trí tuệ nhân tạo để tạo ra các đoạn phim theo ý thích cá nhân.
Theo thông tin từ Google, V2A có khả năng "tạo ra số lượng bản nhạc không hạn chế cho bất kỳ video nào, cho bất kỳ cảnh nào". Điều này cho thấy khả năng đáp ứng nhu cầu đa dạng về âm thanh cho các tình huống khác nhau trong một bộ phim của công cụ này.
Mặc dù công nghệ này mở ra nhiều cơ hội, Google cũng nhận thức được nguy cơ lạm dụng công cụ này cho mục đích không đúng đắn. Do đó, công ty cho biết họ xem đây là một dự án nghiên cứu và chưa có kế hoạch cho phép truy cập rộng rãi. "Trước khi xem xét việc mở quyền truy cập cho công chúng, công nghệ V2A sẽ trải qua quá trình đánh giá và thử nghiệm an toàn nghiêm ngặt", đại diện Google cho biết.