Một nhóm nhà nghiên cứu đến từ Đại học Edinburgh đã tiến hành một nghiên cứu thú vị, trong đó họ đánh giá các mô hình ngôn ngữ lớn đa phương thức đang dẫn đầu thị trường. Mục tiêu của họ là xem xét khả năng của những mô hình này trong việc trả lời các câu hỏi liên quan đến hình ảnh đồng hồ và lịch. Kết quả nghiên cứu hứa hẹn sẽ mở ra nhiều tiềm năng mới trong lĩnh vực trí tuệ nhân tạo.
Trong cuộc đua công nghệ trí tuệ nhân tạo, nhiều hệ thống tiên tiến đã được thử nghiệm. Trong số đó, nổi bật là Gemini 2.0 từ Google DeepMind, Claude 3.5 Sonnet của Anthropic, và Llama 3.2-11B-Vision-Instruct của Meta. Không thể bỏ qua Qwen2-VL7B-Instruct của Alibaba và MiniCPM-V-2.6 của ModelBest. Cuối cùng, hai sản phẩm GPT-4o và GPT-o1 đến từ OpenAI cũng tham gia vào cuộc so tài này. Cùng chờ xem những công nghệ nào sẽ định hình tương lai của AI!
Trong bài kiểm tra, chúng ta đã trải nghiệm một loạt hình ảnh về đồng hồ đa dạng. Những chiếc đồng hồ này không chỉ có kiểu dáng khác nhau mà còn thể hiện các đặc điểm độc đáo. Một số đồng hồ sử dụng chữ số La Mã, trong khi một số khác lại có hoặc không có kim giây. Bên cạnh đó, mặt đồng hồ cũng được thiết kế với nhiều gam màu sắc nổi bật. Tất cả những yếu tố này đã tạo nên một kết quả khiến chúng ta phải suy nghĩ và chiêm nghiệm.
Nghiên cứu mới chỉ ra rằng các hệ thống nhận diện thời gian hiện tại chỉ đạt độ chính xác dưới 25% trong nhiều lần thử nghiệm. Điều này đặc biệt rõ ràng khi chúng phải đối mặt với đồng hồ có chữ số La Mã và các thiết kế kim độc đáo. Các mô hình trí tuệ nhân tạo hiện vẫn đang gặp khó khăn trong việc xử lý các dạng đồng hồ phức tạp này.

Các mô hình AI đang đối mặt với những thách thức đáng kể trong việc xác định và hiểu khái niệm về thời gian. Việc nhận diện thời gian không chỉ đơn giản là một vấn đề kỹ thuật mà còn liên quan đến nhiều yếu tố phức tạp khác nhau. Điều này khiến cho AI gặp khó khăn trong việc phân tích và đưa ra giải pháp chính xác trong các tình huống yêu cầu nhận thức thông tin theo thời gian thực. Các nhà phát triển đang nỗ lực cải thiện khả năng này để nâng cao hiệu suất và tính chính xác của AI trong nhiều lĩnh vực.
Nghiên cứu mới cho thấy việc loại bỏ kim giây không mang lại sự cải thiện cho hiệu suất của AI. Các nhà nghiên cứu cho rằng vấn đề chủ yếu liên quan đến khả năng xác định vị trí của kim đồng hồ và cách mà AI diễn giải góc độ mà các kim tạo ra trên mặt đồng hồ.
Trong một cuộc thử nghiệm liên quan đến việc sử dụng hình ảnh chụp lịch, các nhà nghiên cứu đã đưa ra một loạt câu hỏi như "Ngày đầu năm mới rơi vào thứ mấy?" và "Ngày thứ 153 của năm là thứ mấy?". Kết quả cho thấy ngay cả những mô hình AI tiên tiến nhất hiện nay cũng mắc phải sai lầm đáng kể, với tỷ lệ trả lời sai lên đến 20% cho các câu hỏi về lịch. Điều này cho thấy rằng việc nhận biết và xử lý thông tin liên quan đến thời gian vẫn là một thách thức lớn đối với công nghệ AI.
Các mô hình AI hiện nay có tỷ lệ thành công khác nhau trong các bài kiểm tra. Đáng chú ý, Gemini 2.0 đã ghi nhận điểm số cao nhất khi tham gia bài kiểm tra đồng hồ. Trong khi đó, GPT-01 cho thấy độ chính xác lên tới 80% khi trả lời các câu hỏi liên quan đến lịch sử. Đây là những thông tin quan trọng phản ánh khả năng của từng hệ thống trong việc xử lý và cung cấp thông tin.
Nghiên cứu mới từ Trường Tin học Đại học Edinburgh đã chỉ ra rằng AI vẫn còn khoảng cách lớn trong việc thực hiện những kỹ năng cơ bản mà con người tiếp thu từ khi còn nhỏ, như xem giờ và sử dụng lịch. Trưởng nhóm nghiên cứu, Rohit Saxena, chia sẻ rằng điều này nhấn mạnh sự khác biệt rõ rệt giữa khả năng của AI và kỹ năng hàng ngày của con người.
Theo một chuyên gia, để các hệ thống AI có thể được tích hợp thành công vào các ứng dụng thực tế, đặc biệt là trong các lĩnh vực yêu cầu độ chính xác cao về thời gian như lập lịch, tự động hóa và công nghệ hỗ trợ, cần khắc phục những hạn chế hiện tại. Điều này sẽ mở ra nhiều cơ hội mới cho sự phát triển và ứng dụng của công nghệ AI trong cuộc sống hàng ngày.
Aryo Gema, một nhà nghiên cứu tại Trường Tin học thuộc Đại học Edinburgh, chia sẻ nhận định thú vị về tình hình nghiên cứu AI hiện nay. Ông nêu rõ rằng trong khi nhiều nghiên cứu đang dồn sức vào các nhiệm vụ suy luận phức tạp, không ít hệ thống AI vẫn gặp khó khăn trong việc xử lý những nhiệm vụ đơn giản mà chúng ta thường xuyên thực hiện hàng ngày. Điều này đặt ra một câu hỏi quan trọng về khả năng thực sự của công nghệ AI trong tương lai.

Các mô hình trí tuệ nhân tạo hiện tại vẫn chưa thể xác định thời gian cũng như ngày tháng một cách chính xác. Điều này đặt ra nhiều thách thức, đặc biệt khi AI cần dựa vào thông tin thời gian để thực hiện các tác vụ phức tạp. Hình minh họa dưới đây giúp người dùng hiểu rõ hơn về vấn đề này.
Các phát hiện quan trọng từ một nghiên cứu đã được bình duyệt sẽ được công bố tại hội thảo "Reasoning and Planning for Large Language Models", thuộc Hội nghị Quốc tế lần thứ 13 về Learning Representations (ICLR), diễn ra tại Singapore vào ngày 28 tháng 4 sắp tới. Hiện nay, bạn có thể tìm thấy kết quả nghiên cứu này trên arXiv.
Gần đây, một nghiên cứu từ Trung tâm Báo chí Kỹ thuật số Tow đã chỉ ra những vấn đề nghiêm trọng của các hệ thống AI. Theo khảo sát, tám công cụ tìm kiếm AI được đánh giá đã cung cấp thông tin sai lệch trong tới 60% trường hợp. Đáng chú ý nhất là Grok-3 khi tỷ lệ sai sót của nó lên tới con số 94%. Những phát hiện này nhấn mạnh sự cần thiết phải cải thiện độ chính xác của công nghệ AI.