Không lâu trước đây, OpenAI đã khiến cộng đồng công nghệ bất ngờ khi giới thiệu công cụ AI Sora, có khả năng tạo video chỉ từ vài đoạn mô tả văn bản. Sự ấn tượng của Sora được thể hiện qua những video có chất lượng sống động, giống như được sản xuất bởi đội ngũ dựng phim chuyên nghiệp.
Hiện nay, công ty Alibaba đã tạo ra dự án "EMO (Emote Portrait Alive)" với công nghệ trí tuệ nhân tạo (AI) mới, gây tiếng vang lớn không thua kém Sora. Thay vì tạo video dựa trên mô tả văn bản, EMO có khả năng biến đổi nhân vật từ hình ảnh tĩnh thành ca sĩ biểu diễn trong video, với sự chân thực đến không thể tin nổi.
Được biết, EMO sử dụng một bộ dữ liệu lớn về âm thanh và video để học cách tạo ra các biểu cảm khuôn mặt một cách tự nhiên nhất. Công cụ này sẽ chuyển đổi ảnh tĩnh thành video trong từng khung hình, nhằm đảm bảo chất lượng đầu ra được mượt mà nhất có thể. Đặc biệt, EMO cũng sử dụng hai cơ chế tìm điểm chú ý riêng biệt cho hình ảnh và âm thanh để đảm bảo sự đồng bộ giữa biểu cảm khuôn mặt và lời nói.
Tiềm năng to lớn của công nghệ EMO có thể được áp dụng vào nhiều lĩnh vực như giải trí, giáo dục và giao tiếp. Tuy nhiên, công cụ trí tuệ nhân tạo này cũng gây ra những lo ngại về mặt đạo đức, ví dụ như việc sử dụng hình ảnh của người khác mà không có sự đồng ý, hoặc nghiêm trọng hơn là bị lợi dụng để tạo video giả mạo, ảnh hưởng đến danh tiếng của cá nhân hoặc tổ chức.
Những người quan tâm có thể tìm hiểu thông tin chi tiết về EMO trên trang web: https://humanaigc.github.io/emote-portrait-alive. Những video minh họa được tạo ra bởi EMO rất chân thực và đáng kinh ngạc, từ cử chỉ môi cho đến các biểu cảm.