Nhóm nghiên cứu tại Đại học Công nghệ Kaunas ở Lithuania đã phát triển một mô hình trí tuệ nhân tạo có khả năng loại bỏ các đối tượng trong các video một cách tức thì.
Các nhà nghiên cứu nhận định rằng trong những cảnh quay của một trận đấu bóng đá, sự xuất hiện của một người quay phim trên màn hình có thể "giảm bớt những khoảnh khắc đáng chú ý của trận đấu" và có khả năng gây "thiệt hại về doanh thu cho đài truyền hình do khán giả không hài lòng".
Để khắc phục tình trạng mất tập trung về thị giác, các nhà khoa học đã sáng tạo ra một giải pháp trí tuệ nhân tạo (AI) có khả năng nhận diện các đối tượng đã được phân loại trong video và loại bỏ chúng, tương tự như cách mà một biên tập viên ảnh sử dụng phần mềm chuyên dụng để xóa bỏ một vật thể khỏi bức ảnh.
Việc xóa bỏ các đối tượng khỏi những hình ảnh quay phim, đặc biệt là trong các buổi phát sóng trực tiếp, là một nhiệm vụ vô cùng khó khăn. Để khắc phục vấn đề này, các nhà khoa học đã sáng tạo ra một công nghệ trí tuệ nhân tạo mang tên YOLOv8, với khả năng phát hiện đối tượng một cách nhanh chóng và cực kỳ chính xác.
YOLOv8 là viết tắt của cụm từ “You Only Look Once”. Công nghệ này có khả năng nhận diện và phân loại các đối tượng chỉ qua một lần quan sát, rất phù hợp cho các sự kiện diễn ra theo thời gian thực như các chương trình thể thao được phát sóng trực tiếp.
“Nó hoạt động bằng cách phân chia hình ảnh thành một lưới và dự đoán các đối tượng bị giới hạn, xác suất của từng lớp cũng như đa giác phân đoạn cho mỗi ô trong lưới. Điều này giúp nó nhận diện và phân đoạn các đối tượng cần loại bỏ,” thành viên nhóm nghiên cứu Serhii Postupaiev cho biết.
Nhằm hỗ trợ cho mô hình YOLOv8 trong việc phát hiện và phân đoạn chính xác các người quay phim trong các trận đấu, nhóm nghiên cứu đã xây dựng một hệ thống dữ liệu chuẩn.
Postupaiev chia sẻ: “Chúng tôi đã phát triển các bộ dữ liệu chuyên biệt, trong đó có một bộ dữ liệu bao gồm nhiều loại máy quay phim với kích cỡ, hình dáng và kiểu thiết bị đa dạng, được ghi lại trong nhiều điều kiện và các giai đoạn khác nhau của một trận thi đấu thể thao. Hiện tại, YOLOv8 đang áp dụng bộ dữ liệu này để xác định vị trí của người quay phim trong các đoạn video."
Nhóm nghiên cứu đã áp dụng kỹ thuật video inpainting, một thuật toán thuộc lĩnh vực học sâu, vận hành tương tự như công cụ Spot Healing Brush.
YOLOv8 tích hợp trí tuệ nhân tạo (AI) cùng với công nghệ thị giác máy tính nhằm phân tích các khung hình trong video, từ đó phát hiện ra những người quay phim không được phép. Nó sẽ thay thế những khu vực đã bị xóa bằng các chi tiết nền phù hợp. Các khung hình đã được chỉnh sửa sau đó được gửi trực tiếp về cho người xem.
Với thời gian trễ ngắn trong quá trình phát sóng trực tiếp, thuật toán có khả năng xử lý hình ảnh được ghi lại trước khi truyền trực tiếp chỉ trong vài giây.
“Chương trình phát sóng sẽ đạt được tính chuyên nghiệp cao hơn mà không bị cản trở bởi sự hiện diện của các camera ở những vị trí không phù hợp. Những cải tiến này sẽ giúp giảm thiểu tình huống bỏ lỡ những khoảnh khắc quan trọng trong trận đấu do sự phân tâm từ các máy quay,” Postupaiev nhấn mạnh.
Mặc dù dự án chủ yếu chú trọng vào các trận đấu bóng đá, YOLOv8 hoàn toàn có thể được phát triển để áp dụng cho nhiều môn thể thao khác như bóng rổ, bóng bầu dục và khúc côn cầu trên băng. Postupaiev cho biết rằng công nghệ này cũng có khả năng được tích hợp để xử lý hình ảnh từ các bản ghi cũ của những trận đấu thể thao nổi tiếng.