"Nghiên Cứu Cho Thấy AI Hiện Đại Thua Kém Trong Những Nhiệm Vụ Trẻ Em Có Thể Thực Hiện: Khám Phá Những Hạn Chế Đáng Ngạc Nhiên"

"Nghiên Cứu Cho Thấy AI Hiện Đại Thua Kém Trong Những Nhiệm Vụ Trẻ Em Có Thể Thực Hiện: Khám Phá Những Hạn Chế Đáng Ngạc Nhiên"

19-03-2025 19:22:16

Những kỹ năng mà con người bắt đầu rèn luyện từ khi còn nhỏ đang đặt ra không ít thách thức cho trí tuệ nhân tạo. Sự tinh tế và khả năng tư duy linh hoạt của con người đang khiến AI phải đối mặt với nhiều bài toán phức tạp mà chúng không dễ dàng giải quyết. Hãy cùng khám phá sự tương tác giữa trí thông minh nhân tạo và những kỹ năng độc đáo này trong thế giới game.

Một nhóm nhà nghiên cứu đến từ Đại học Edinburgh đã tiến hành một nghiên cứu thú vị, trong đó họ đánh giá các mô hình ngôn ngữ lớn đa phương thức đang dẫn đầu thị trường. Mục tiêu của họ là xem xét khả năng của những mô hình này trong việc trả lời các câu hỏi liên quan đến hình ảnh đồng hồ và lịch. Kết quả nghiên cứu hứa hẹn sẽ mở ra nhiều tiềm năng mới trong lĩnh vực trí tuệ nhân tạo.

Trong cuộc đua công nghệ trí tuệ nhân tạo, nhiều hệ thống tiên tiến đã được thử nghiệm. Trong số đó, nổi bật là Gemini 2.0 từ Google DeepMind, Claude 3.5 Sonnet của Anthropic, và Llama 3.2-11B-Vision-Instruct của Meta. Không thể bỏ qua Qwen2-VL7B-Instruct của Alibaba và MiniCPM-V-2.6 của ModelBest. Cuối cùng, hai sản phẩm GPT-4o và GPT-o1 đến từ OpenAI cũng tham gia vào cuộc so tài này. Cùng chờ xem những công nghệ nào sẽ định hình tương lai của AI!

Trong bài kiểm tra, chúng ta đã trải nghiệm một loạt hình ảnh về đồng hồ đa dạng. Những chiếc đồng hồ này không chỉ có kiểu dáng khác nhau mà còn thể hiện các đặc điểm độc đáo. Một số đồng hồ sử dụng chữ số La Mã, trong khi một số khác lại có hoặc không có kim giây. Bên cạnh đó, mặt đồng hồ cũng được thiết kế với nhiều gam màu sắc nổi bật. Tất cả những yếu tố này đã tạo nên một kết quả khiến chúng ta phải suy nghĩ và chiêm nghiệm.

Nghiên cứu mới chỉ ra rằng các hệ thống nhận diện thời gian hiện tại chỉ đạt độ chính xác dưới 25% trong nhiều lần thử nghiệm. Điều này đặc biệt rõ ràng khi chúng phải đối mặt với đồng hồ có chữ số La Mã và các thiết kế kim độc đáo. Các mô hình trí tuệ nhân tạo hiện vẫn đang gặp khó khăn trong việc xử lý các dạng đồng hồ phức tạp này.

Các mô hình AI đang đối mặt với những thách thức đáng kể trong việc xác định và hiểu khái niệm về thời gian. Việc nhận diện thời gian không chỉ đơn giản là một vấn đề kỹ thuật mà còn liên quan đến nhiều yếu tố phức tạp khác nhau. Điều này khiến cho AI gặp khó khăn trong việc phân tích và đưa ra giải pháp chính xác trong các tình huống yêu cầu nhận thức thông tin theo thời gian thực. Các nhà phát triển đang nỗ lực cải thiện khả năng này để nâng cao hiệu suất và tính chính xác của AI trong nhiều lĩnh vực.

Nghiên cứu mới cho thấy việc loại bỏ kim giây không mang lại sự cải thiện cho hiệu suất của AI. Các nhà nghiên cứu cho rằng vấn đề chủ yếu liên quan đến khả năng xác định vị trí của kim đồng hồ và cách mà AI diễn giải góc độ mà các kim tạo ra trên mặt đồng hồ.

Trong một cuộc thử nghiệm liên quan đến việc sử dụng hình ảnh chụp lịch, các nhà nghiên cứu đã đưa ra một loạt câu hỏi như "Ngày đầu năm mới rơi vào thứ mấy?" và "Ngày thứ 153 của năm là thứ mấy?". Kết quả cho thấy ngay cả những mô hình AI tiên tiến nhất hiện nay cũng mắc phải sai lầm đáng kể, với tỷ lệ trả lời sai lên đến 20% cho các câu hỏi về lịch. Điều này cho thấy rằng việc nhận biết và xử lý thông tin liên quan đến thời gian vẫn là một thách thức lớn đối với công nghệ AI.

Các mô hình AI hiện nay có tỷ lệ thành công khác nhau trong các bài kiểm tra. Đáng chú ý, Gemini 2.0 đã ghi nhận điểm số cao nhất khi tham gia bài kiểm tra đồng hồ. Trong khi đó, GPT-01 cho thấy độ chính xác lên tới 80% khi trả lời các câu hỏi liên quan đến lịch sử. Đây là những thông tin quan trọng phản ánh khả năng của từng hệ thống trong việc xử lý và cung cấp thông tin.

Nghiên cứu mới từ Trường Tin học Đại học Edinburgh đã chỉ ra rằng AI vẫn còn khoảng cách lớn trong việc thực hiện những kỹ năng cơ bản mà con người tiếp thu từ khi còn nhỏ, như xem giờ và sử dụng lịch. Trưởng nhóm nghiên cứu, Rohit Saxena, chia sẻ rằng điều này nhấn mạnh sự khác biệt rõ rệt giữa khả năng của AI và kỹ năng hàng ngày của con người.

Theo một chuyên gia, để các hệ thống AI có thể được tích hợp thành công vào các ứng dụng thực tế, đặc biệt là trong các lĩnh vực yêu cầu độ chính xác cao về thời gian như lập lịch, tự động hóa và công nghệ hỗ trợ, cần khắc phục những hạn chế hiện tại. Điều này sẽ mở ra nhiều cơ hội mới cho sự phát triển và ứng dụng của công nghệ AI trong cuộc sống hàng ngày.

Aryo Gema, một nhà nghiên cứu tại Trường Tin học thuộc Đại học Edinburgh, chia sẻ nhận định thú vị về tình hình nghiên cứu AI hiện nay. Ông nêu rõ rằng trong khi nhiều nghiên cứu đang dồn sức vào các nhiệm vụ suy luận phức tạp, không ít hệ thống AI vẫn gặp khó khăn trong việc xử lý những nhiệm vụ đơn giản mà chúng ta thường xuyên thực hiện hàng ngày. Điều này đặt ra một câu hỏi quan trọng về khả năng thực sự của công nghệ AI trong tương lai.

Các mô hình trí tuệ nhân tạo hiện tại vẫn chưa thể xác định thời gian cũng như ngày tháng một cách chính xác. Điều này đặt ra nhiều thách thức, đặc biệt khi AI cần dựa vào thông tin thời gian để thực hiện các tác vụ phức tạp. Hình minh họa dưới đây giúp người dùng hiểu rõ hơn về vấn đề này.

Các phát hiện quan trọng từ một nghiên cứu đã được bình duyệt sẽ được công bố tại hội thảo "Reasoning and Planning for Large Language Models", thuộc Hội nghị Quốc tế lần thứ 13 về Learning Representations (ICLR), diễn ra tại Singapore vào ngày 28 tháng 4 sắp tới. Hiện nay, bạn có thể tìm thấy kết quả nghiên cứu này trên arXiv.

Gần đây, một nghiên cứu từ Trung tâm Báo chí Kỹ thuật số Tow đã chỉ ra những vấn đề nghiêm trọng của các hệ thống AI. Theo khảo sát, tám công cụ tìm kiếm AI được đánh giá đã cung cấp thông tin sai lệch trong tới 60% trường hợp. Đáng chú ý nhất là Grok-3 khi tỷ lệ sai sót của nó lên tới con số 94%. Những phát hiện này nhấn mạnh sự cần thiết phải cải thiện độ chính xác của công nghệ AI.

Cùng Chuyên Mục

CÔNG NGHỆ

4 tháng

"Giá iPhone 13 Tháng 3/2024: Khám Phá 2 Phiên Bản Uư Đãi Chỉ Từ 11,79 Triệu Đồng!"

Máy sở hữu vi xử lý A15 Bionic mạnh mẽ mang đến hiệu suất vượt trội. Hệ thống camera kép 12MP, gồm camera chính và camera góc siêu rộng, giúp bạn ghi lại mọi khoảnh khắc một cách sống động. Đặc biệt, pin với dung lượng 3.240mAh đảm bảo thời gian sử dụng lâu dài cho những trải nghiệm tuyệt vời.

CÔNG NGHỆ

4 tháng

"Trở Về Trái Đất: Khoảnh Khắc Cảm Động Của Hai Phi Hành Gia Sau 9 Tháng Khám Phá Vũ Trụ"

Hai phi hành gia của NASA, Butch Wilmore và Suni Williams, đã trở lại Trái đất sau một hành trình đầy kịch tính kéo dài hơn 9 tháng. Chuyến bay thử nghiệm trước đó đã gặp phải một số vấn đề, nhưng sự kiên trì và lòng dũng cảm của họ đã giúp họ vượt qua mọi khó khăn. Giờ đây, họ đã an toàn hội ngộ với gia đình và đồng nghiệp, đánh dấu một chương mới trong sự nghiệp khám phá không gian của mình.

CÔNG NGHỆ

4 tháng

Khám Phá Màn Hình LG UltraGear OLED 27GX790A 480Hz: Lựa Chọn Hoàn Hảo Cho Game Thủ QHD

Nếu bạn đang tìm kiếm một màn hình gaming nổi bật với những thông số ấn tượng, UltraGear OLED 27GX790A 480Hz của LG chính là sản phẩm hoàn hảo dành cho bạn. Với thiết kế tinh tế và công nghệ hiện đại, màn hình này mang đến trải nghiệm chơi game tuyệt vời với tốc độ làm tươi cực nhanh và màu sắc rực rỡ. Đừng bỏ lỡ cơ hội nâng cấp không gian gaming của bạn với lựa chọn hàng đầu này.

CÔNG NGHỆ

4 tháng

"Khám Phá Ổ Cứng SSD Samsung 9100 PRO Mới: Tối Ưu Hiệu Suất Với Hỗ Trợ PCIe 5.0"

Samsung Electronics đã ra mắt ổ cứng SSD 9100 PRO, dòng sản phẩm mới nhất sử dụng giao thức PCIe® 5.0. Sản phẩm này hứa hẹn mang lại hiệu suất vượt trội và khả năng xử lý đa nhiệm mượt mà, đồng thời đảm bảo tính tương thích với nhiều thiết bị khác nhau.

CÔNG NGHỆ

4 tháng

Khám Phá Cơ Hội Mua AirPods Chỉ 70.000 Đồng: Những Điều Kỳ Diệu Bạn Chưa Từng Nghe Đến

AirPods đã nhanh chóng chiếm lĩnh thị trường tai nghe không dây với danh tiếng và tính năng vượt trội. Tuy nhiên, cùng với sự phổ biến này, ngày càng có nhiều sản phẩm giả mạo và nhái xuất hiện, gây ảnh hưởng đến trải nghiệm của người dùng.

CÔNG NGHỆ

4 tháng

"Redmi Chính Thức Ra Mắt Đồng Hồ Thông Minh Cho Trẻ Em: Độc Đáo và Chỉ 1,7 Triệu Đồng!"

Redmi vừa cho ra mắt chiếc đồng hồ thông minh đầu tiên dành riêng cho trẻ em. Sản phẩm nổi bật với màn hình 1,68 inch, camera 5MP và khả năng theo dõi vị trí. Đây là một lựa chọn tuyệt vời dành cho các bậc phụ huynh muốn theo dõi và đảm bảo an toàn cho con cái mình. Với thiết kế thân thiện và tính năng hiện đại, đồng hồ này chắc chắn sẽ trở thành món đồ công nghệ yêu thích của trẻ.

"Nghiên Cứu Cho Thấy AI Hiện Đại Thua Kém Trong Những Nhiệm Vụ Trẻ Em Có Thể Thực Hiện: Khám Phá Những Hạn Chế Đáng Ngạc Nhiên"

Cùng Chuyên Mục

"Giá iPhone 13 Tháng 3/2024: Khám Phá 2 Phiên Bản Uư Đãi Chỉ Từ 11,79 Triệu Đồng!"

"Trở Về Trái Đất: Khoảnh Khắc Cảm Động Của Hai Phi Hành Gia Sau 9 Tháng Khám Phá Vũ Trụ"

Khám Phá Màn Hình LG UltraGear OLED 27GX790A 480Hz: Lựa Chọn Hoàn Hảo Cho Game Thủ QHD

"Khám Phá Ổ Cứng SSD Samsung 9100 PRO Mới: Tối Ưu Hiệu Suất Với Hỗ Trợ PCIe 5.0"

Khám Phá Cơ Hội Mua AirPods Chỉ 70.000 Đồng: Những Điều Kỳ Diệu Bạn Chưa Từng Nghe Đến

"Redmi Chính Thức Ra Mắt Đồng Hồ Thông Minh Cho Trẻ Em: Độc Đáo và Chỉ 1,7 Triệu Đồng!"

Hot Hôm Nay

"Khám Phá Quầng Sáng Bí Ẩn Từ Vũ Trụ Cách Đây 10 Tỷ Năm: Những Điều Chưa Từng Được Biết"

"Google Bị Tố Âm Thầm Theo Dõi Người Dùng Android: Những Điều Bạn Cần Biết"

"Thông Báo: Ngân Hàng Techcombank Tạm Ngưng Dịch Vụ Trực Tuyến Vào Ngày 4/7"

"Chi tiết Hướng Dẫn Tích Hợp Giấy Phép Lái Xe vào Ứng Dụng VNeID – An Tâm Cất Bản Cứng Tại Nhà"

"Honda 125cc: Đột Phá Mới Với Thiết Kế Sang Trọng, Giá Tốt Và Siêu Tiết Kiệm So Với SH Mode"

"Card Đồ Họa Intel: Niềm Hy Vọng Hay Cú Lừa Giá Rẻ Cho Game Thủ?"

"Tra Cứu Biển Số Xe Thành Phố Và Tỉnh Thành Mới Nhất Từ Ngày 1/7: Cập Nhật Thông Tin Chi Tiết"

"Sắp Ra Mắt: AMD MSI Claw Mới Với Giá Cả Cạnh Tranh – Cơ Hội Không Thể Bỏ Lỡ!"

"Khám Phá Mẫu Điện Thoại 'Kẻ Hủy Diệt Tí Hon': Hiệu Năng Soi Sáng Galaxy S25, Pin Khủng 6.500mAh, Giá Chỉ Từ 3 Triệu"

"Apple Cải Tiến AirPods: Tính Năng Tự Động Ngắt Khi Ngủ Đang Được Nâng Cấp Trong iOS 26"