CÔNG NGHỆ

Chia sẻ vị trí chụp ảnh của bạn với AI để tìm kiếm ngay lập tức

Các nhà khoa học đang phát triển hệ thống AI để xác định vị trí của một bức ảnh, mặc dù việc này thường khó khăn đối với con người.

Trevor Rainbolt, 25 tuổi, là một chuyên gia hàng đầu trong việc xác định vị trí chụp ảnh, anh thường xuyên nhận được yêu cầu từ cộng đồng mạng để giúp tìm ra vị trí chụp ảnh của những bức ảnh cũ. Với khả năng đánh giá tuyệt vời của mình, anh đã giúp đỡ rất nhiều người.

Rainbolt là một game thủ chuyên nghiệp của trò chơi GeoGuessr, một trò chơi đoán ảnh, và sự nổi tiếng của anh ấy đã khiến nhiều người biết đến trò chơi này. Thành tích xuất sắc này đến từ quá trình rèn luyện lâu dài của anh ấy, với hơn 10.000 giờ chơi và khả năng chơi từ bốn đến tám giờ mỗi ngày.

Chia sẻ vị trí chụp ảnh của bạn với AI để tìm kiếm ngay lập tức

Tuy nhiên, vào tháng 5 năm 2023, anh đã thua trước một trí tuệ nhân tạo được phát triển bởi ba sinh viên mới tốt nghiệp tại Đại học Stanford - trí tuệ nhân tạo này được phát triển trong vòng hai tháng. Trong quá trình huấn luyện, nó đã đoán đúng quốc gia mà bức ảnh được chụp với độ chính xác lên tới 92%. Điểm trung bình khi chơi trò chơi GeoGuessr cao đến 4525 (trên tổng số 5000 điểm), xếp hạng trong top 0,01% người chơi trên toàn thế giới.

Chia sẻ vị trí chụp ảnh của bạn với AI để tìm kiếm ngay lập tức

Tương tự như Rainbolt, ba nhà phát triển trí tuệ nhân tạo cũng là những người chơi GeoGuessr có kinh nghiệm. GeoGuessr là trò chơi đoán địa lý trực tuyến với khoảng 50 triệu người chơi, được phát triển vào năm 2013 bởi một kỹ sư phần mềm người Thụy Điển. Khi tham gia vào trò chơi, người chơi sẽ được đặt ngẫu nhiên ở một địa điểm trên Google Street View, sau đó phải đoán vị trí địa lý của mình dựa trên thông tin trên màn hình, cuối cùng họ cần đánh dấu vị trí mình đoán bằng cách đặt một chiếc đinh ghim trên bản đồ thế giới. Hầu hết các người chơi của trò chơi đều là những người trẻ tuổi, và một số game thủ xuất sắc nhất chỉ mới 14 tuổi.

Chia sẻ vị trí chụp ảnh của bạn với AI để tìm kiếm ngay lập tức

Trong hiệp đầu tiên của trận đấu giữa Rainbolt và AI, hình ảnh xuất hiện và quyết định tỷ số dựa vào độ chính xác và tốc độ đoán của người chơi. Người chơi sẽ nhận được nhiều điểm hơn nếu vị trí đoán của họ càng gần với vị trí thực tế. Ngoài ra, những người chơi hoàn thành dự đoán nhanh chóng cũng sẽ có điểm số cao hơn.

Trên thực tế, vào năm 2022, một nhóm sinh viên 3 người đã tốt nghiệp tại Đại học Stanford đang theo học khóa học về trí tuệ nhân tạo "Deep Multitask and Meta Learning". Ba nhà phát triển này đều thích chơi GeoGuessr, vì vậy họ quyết định bắt đầu từ sở thích chung của mình và thử xem có thể tạo ra một game thủ trí tuệ nhân tạo vượt trội hơn con người hay không.

Dự án của họ có tên là "Dự đoán vị trí hình ảnh", viết tắt là PIGEON. Họ đã áp dụng mạng nơ-ron CLIP của OpenAI (cũng là công ty phát triển ChatGPT) để hiểu và phân tích hình ảnh bằng cách đọc văn bản.

Sau đó, họ sử dụng ảnh từ Google Street View để huấn luyện hệ thống. Bộ dữ liệu huấn luyện chứa khoảng 500.000 hình ảnh từ Google Street View. AI sẽ phân chia hình ảnh thành các ô nhỏ để phân tích và có khả năng lựa chọn những ô đặc biệt đó. Đối với AI, hình ảnh không chỉ là hình ảnh mà còn chứa thông tin văn bản tương ứng. Bằng cách tích hợp thông tin hình ảnh như tòa nhà, cấu trúc đường phố, thảm thực vật và địa danh cùng với các thông tin bổ sung như điều kiện thời tiết, mùa và khí hậu, AI cũng có khả năng dự đoán nhanh chóng nơi ảnh được chụp, giống như con người.

Chia sẻ vị trí chụp ảnh của bạn với AI để tìm kiếm ngay lập tức

Dù tập dữ liệu khá nhỏ, hệ thống trí tuệ nhân tạo cuối cùng vẫn hoạt động hiệu quả, không chỉ có độ chính xác cao mà còn có sai số nhỏ hơn so với dự đoán của con người. Nó có thể xác định vị trí trong phạm vi khoảng 40 km tính từ vị trí thực tế trong trận đấu với Renbolt.

Hiện nay, các nhà phát triển đã tạo ra một mô hình AI thứ hai mang tên PIGEOTTO, có khả năng dự đoán vị trí của một bức ảnh chỉ bằng cách nhìn vào nó. PIGEOTTO đã được huấn luyện trên một bộ dữ liệu lớn chứa hơn 4 triệu bức ảnh từ Flickr và Wikipedia, giúp nó học hỏi từ nhiều ngữ cảnh khác nhau trên khắp thế giới.

Đáng chú ý, PIGEOTTO là hệ thống đầu tiên có khả năng tự động hóa tốt, tức là nó có thể nhận biết được những bức ảnh mới mà không cần được huấn luyện trực tiếp.

Cả hai mô hình AI PIGEON và PIGEOTTO đều áp dụng phương pháp học tập đa tác vụ, cho phép chúng học từ dữ liệu địa lý và chú thích ngoài ảnh một cách thông minh.

Chia sẻ vị trí chụp ảnh của bạn với AI để tìm kiếm ngay lập tức

Các thử nghiệm gần đây đã cho thấy rằng PIGEON có khả năng xác định vị trí chính xác trong phạm vi 25 km trong 40% thời gian khi phân tích cảnh ở Google Street View. Đồng thời, PIGEOTTO đã thiết lập kỷ lục trong việc giảm tới 50% sai số khoảng cách trung bình so với các hệ thống AI trước đó trong các bài kiểm tra điểm chuẩn.

Độ chính xác này có thể mở ra nhiều cơ hội mới cho việc gắn thẻ địa lý hình ảnh, ứng dụng du lịch, phương tiện truyền thông xã hội, hệ thống định vị, và nhiều ứng dụng khác.

Tuy nhiên, với mọi công nghệ mới đều có khả năng bị lạm dụng. Các nhà nghiên cứu cảnh báo rằng cần áp dụng các biện pháp bảo vệ để ngăn chặn việc sử dụng Trí tuệ nhân tạo cho mục đích phi đạo đức. Tuy nhiên, nói chung, các hệ thống tiên tiến này đã chứng minh được tiềm năng của Trí tuệ nhân tạo trong việc nhận diện chính xác hình ảnh trên toàn cầu.

Cùng Chuyên Mục

Điện thoại Android vượt trội iPhone 16 Pro với tính năng bất ngờ
CÔNG NGHỆ

Điện thoại Android vượt trội iPhone 16 Pro với tính năng bất ngờ

Qualcomm sẽ giới thiệu chip mới hàng đầu Snapdragon 8 Gen 4 tại Hội nghị thượng đỉnh Snapdragon vào tháng 10.

iPhone sẽ có màn hình cảm ứng tràn viền trong tương lai?
CÔNG NGHỆ

iPhone sẽ có màn hình cảm ứng tràn viền trong tương lai?

iPhone tương lai có thể sở hữu màn hình tràn viền và tính năng điều khiển theo bằng sáng chế mới.

Asus ra mắt Zenfone 11 Ultra với đột phá đầy ấn tượng
CÔNG NGHỆ

Asus ra mắt Zenfone 11 Ultra với đột phá đầy ấn tượng

Asus vừa ra mắt ZenFone 11 Ultra, sản phẩm đánh dấu sự chuyển hướng quan trọng của dòng ZenFone phổ thông.

Nhân viên Google gọi khuôn viên mới là "tam giác quỷ Bermuda" và khóc ròng
CÔNG NGHỆ

Nhân viên Google gọi khuôn viên mới là "tam giác quỷ Bermuda" và khóc ròng

Khuôn viên Bay View mới của Google đang gặp vấn đề về Wi-Fi kém.

Thợ "đào" tiền ảo đang "gom" sạch CPU AMD Ryzen
CÔNG NGHỆ

Thợ "đào" tiền ảo đang "gom" sạch CPU AMD Ryzen

Thị trường CPU đang sôi động với cơn sốt khai thác tiền ảo đang lan rộng.

Copilot Pro mở rộng toàn cầu và cung cấp dùng thử miễn phí
CÔNG NGHỆ

Copilot Pro mở rộng toàn cầu và cung cấp dùng thử miễn phí

Copilot Pro, dịch vụ hỗ trợ lập trình AI của Microsoft, đã đạt được những bước tiến mới đáng chú ý.