Microsoft Research Asia đã mới đây công bố một báo cáo về ứng dụng AI sáng tạo đang phát triển có tên là VASA-1. Ứng dụng này được thiết kế để tạo ra video chân thực chỉ từ một hình ảnh khuôn mặt và nhạc nền, đồng thời còn có khả năng hoán đổi khuôn mặt theo thời gian thực.
Ứng dụng này áp dụng một framework machine learning để phân tích hình ảnh khuôn mặt, sau đó đồng bộ hóa chuyển động của môi và miệng với âm thanh, mô phỏng các biểu cảm và chuyển động cơ thể.
Dù ứng dụng này đã được phát triển tiên tiến, nhưng vẫn tồn tại một số hạn chế nhất định như việc nhận diện răng không chính xác, thay đổi kích thước và hình dạng miệng khi nói.
Bên cạnh đó, các nhà nghiên cứu cũng đã áp dụng Trí tuệ nhân tạo để tạo ra các khuôn mặt trong các phiên bản demo của họ, thử nghiệm trên các hình ảnh từ thực tế đến nghệ thuật, như bức tranh Mona Lisa. Tuy nhiên, có những lo ngại rằng công nghệ này có thể bị lạm dụng để tạo ra các video giả mạo, lừa đảo hoặc lan truyền thông tin sai lệch.
Do đó, nhóm nghiên cứu đã quyết định không tiết lộ ứng dụng công khai cho đến khi đảm bảo rằng nó sẽ được sử dụng một cách có trách nhiệm và tuân thủ các quy định phù hợp. Công nghệ này cũng có khả năng được áp dụng trong các ứng dụng thực tế, như tạo hình đại diện video thực tế trong thời gian thực mà không cần sử dụng nguồn video tiêu tốn băng thông, tương tự như công nghệ Spatial Personas của Apple.