Các nhà nghiên cứu đã giới thiệu mô hình mới của họ, được gọi là VASA-1, có khả năng tạo ra video chân thực chỉ từ một hình ảnh tĩnh và một đoạn âm thanh giọng nói. Kết quả đạt được rất ấn tượng và vượt qua tất cả các công cụ trí tuệ nhân tạo (AI) trước đây để tạo ra các tác phẩm thực tế sâu.
Một điểm đặc biệt ấn tượng tại VASA-1 chính là khả năng mô phỏng hoàn hảo các đặc điểm của khuôn mặt tự nhiên, biểu cảm phong phú và khả năng hát nhép mà không cần nhiều chỉnh sửa.
Các chuyên gia công nghệ thừa nhận rằng các mô hình trong các nghiên cứu của họ vẫn gặp khó khăn với các yếu tố cứng nhắc, như tóc. Tuy nhiên, đó cũng là biện pháp giúp mọi người chú ý hơn khi cần phát hiện video giả mạo.
Theo đại diện của Microsoft, VASA-1 có khả năng tạo ra các khung hình video kích thước 512 x 512 ở tốc độ 45 khung hình/giây khi xử lý offline và lên đến 40 khung hình/giây khi phát online với độ trễ chỉ 170 ms. Kết quả này đã được đánh giá trên máy tính cá nhân có CPU NVIDIA RTX 4090.
Công cụ dựa trên mô hình mới rất dễ sử dụng và thậm chí còn cung cấp khả năng kiểm soát "tín hiệu tùy chọn theo điều kiện", có nghĩa là người dùng có thể điều chỉnh hướng nhìn của mắt chính, khoảng cách đầu và bù đắp cảm xúc. Ngoài ra, VASA-1 cũng xử lý các đầu vào không thực tế, như nghệ thuật. Do đó, nó có thể làm cho những bức tranh trở nên sống động.
VASA-1 có khả năng biến khuôn mặt trong các bức ảnh hát, đọc rap hoặc nói chuyện bằng các ngôn ngữ khác ngoài tiếng Anh. Một ví dụ điển hình, Microsoft đã tạo ra một đoạn video hài hước về màn rap điên cuồng của Mona Lisa như trong video đã được chia sẻ.
Việc quan trọng là phải nhấn mạnh về các nguy cơ tiềm ẩn mà công nghệ như vậy có thể mang lại khi được sử dụng để tạo ra nội dung giả mạo. Một tin vui là các nhà nghiên cứu của Microsoft đã nhận thức được rủi ro này, vì vậy công ty không có kế hoạch phát hành bản demo trực tuyến, API, sản phẩm, chi tiết triển khai bổ sung hoặc bất kỳ dịch vụ liên quan nào cho đến khi họ chắc chắn rằng công nghệ này sẽ được sử dụng một cách có trách nhiệm và tuân thủ các quy định phù hợp.
Microsoft đã thừa nhận rằng việc sử dụng VASA-1 không đúng mục đích có thể xảy ra, tuy nhiên công cụ này có thể mang lại những lợi ích tiềm năng, bao gồm việc nâng cao tính công bằng trong giáo dục, cải thiện khả năng tiếp cận cho những cá nhân gặp khó khăn trong giao tiếp và cung cấp sự đồng hành hoặc hỗ trợ trị liệu cho những người có nhu cầu.
OpenAI, đối thủ của Microsoft, cũng đang đối diện với những thách thức tương tự. Gần đây, họ đã giới thiệu một mô hình AI mạnh mẽ có tên Sora để sao chép giọng nói, nhưng sau đó đã quyết định không công bố công khai nó. Công ty cho biết rằng việc phát hành công nghệ này cần phải đi kèm với các chính sách và biện pháp để ngăn chặn việc sử dụng sai mục đích.