Trevor Rainbolt, 25 tuổi, là một chuyên gia hàng đầu trong việc xác định vị trí chụp ảnh, anh thường xuyên nhận được yêu cầu từ cộng đồng mạng để giúp tìm ra vị trí chụp ảnh của những bức ảnh cũ. Với khả năng đánh giá tuyệt vời của mình, anh đã giúp đỡ rất nhiều người.
Rainbolt là một game thủ chuyên nghiệp của trò chơi GeoGuessr, một trò chơi đoán ảnh, và sự nổi tiếng của anh ấy đã khiến nhiều người biết đến trò chơi này. Thành tích xuất sắc này đến từ quá trình rèn luyện lâu dài của anh ấy, với hơn 10.000 giờ chơi và khả năng chơi từ bốn đến tám giờ mỗi ngày.
Tuy nhiên, vào tháng 5 năm 2023, anh đã thua trước một trí tuệ nhân tạo được phát triển bởi ba sinh viên mới tốt nghiệp tại Đại học Stanford - trí tuệ nhân tạo này được phát triển trong vòng hai tháng. Trong quá trình huấn luyện, nó đã đoán đúng quốc gia mà bức ảnh được chụp với độ chính xác lên tới 92%. Điểm trung bình khi chơi trò chơi GeoGuessr cao đến 4525 (trên tổng số 5000 điểm), xếp hạng trong top 0,01% người chơi trên toàn thế giới.
Tương tự như Rainbolt, ba nhà phát triển trí tuệ nhân tạo cũng là những người chơi GeoGuessr có kinh nghiệm. GeoGuessr là trò chơi đoán địa lý trực tuyến với khoảng 50 triệu người chơi, được phát triển vào năm 2013 bởi một kỹ sư phần mềm người Thụy Điển. Khi tham gia vào trò chơi, người chơi sẽ được đặt ngẫu nhiên ở một địa điểm trên Google Street View, sau đó phải đoán vị trí địa lý của mình dựa trên thông tin trên màn hình, cuối cùng họ cần đánh dấu vị trí mình đoán bằng cách đặt một chiếc đinh ghim trên bản đồ thế giới. Hầu hết các người chơi của trò chơi đều là những người trẻ tuổi, và một số game thủ xuất sắc nhất chỉ mới 14 tuổi.
Trong hiệp đầu tiên của trận đấu giữa Rainbolt và AI, hình ảnh xuất hiện và quyết định tỷ số dựa vào độ chính xác và tốc độ đoán của người chơi. Người chơi sẽ nhận được nhiều điểm hơn nếu vị trí đoán của họ càng gần với vị trí thực tế. Ngoài ra, những người chơi hoàn thành dự đoán nhanh chóng cũng sẽ có điểm số cao hơn.
Trên thực tế, vào năm 2022, một nhóm sinh viên 3 người đã tốt nghiệp tại Đại học Stanford đang theo học khóa học về trí tuệ nhân tạo "Deep Multitask and Meta Learning". Ba nhà phát triển này đều thích chơi GeoGuessr, vì vậy họ quyết định bắt đầu từ sở thích chung của mình và thử xem có thể tạo ra một game thủ trí tuệ nhân tạo vượt trội hơn con người hay không.
Dự án của họ có tên là "Dự đoán vị trí hình ảnh", viết tắt là PIGEON. Họ đã áp dụng mạng nơ-ron CLIP của OpenAI (cũng là công ty phát triển ChatGPT) để hiểu và phân tích hình ảnh bằng cách đọc văn bản.
Sau đó, họ sử dụng ảnh từ Google Street View để huấn luyện hệ thống. Bộ dữ liệu huấn luyện chứa khoảng 500.000 hình ảnh từ Google Street View. AI sẽ phân chia hình ảnh thành các ô nhỏ để phân tích và có khả năng lựa chọn những ô đặc biệt đó. Đối với AI, hình ảnh không chỉ là hình ảnh mà còn chứa thông tin văn bản tương ứng. Bằng cách tích hợp thông tin hình ảnh như tòa nhà, cấu trúc đường phố, thảm thực vật và địa danh cùng với các thông tin bổ sung như điều kiện thời tiết, mùa và khí hậu, AI cũng có khả năng dự đoán nhanh chóng nơi ảnh được chụp, giống như con người.
Dù tập dữ liệu khá nhỏ, hệ thống trí tuệ nhân tạo cuối cùng vẫn hoạt động hiệu quả, không chỉ có độ chính xác cao mà còn có sai số nhỏ hơn so với dự đoán của con người. Nó có thể xác định vị trí trong phạm vi khoảng 40 km tính từ vị trí thực tế trong trận đấu với Renbolt.
Hiện nay, các nhà phát triển đã tạo ra một mô hình AI thứ hai mang tên PIGEOTTO, có khả năng dự đoán vị trí của một bức ảnh chỉ bằng cách nhìn vào nó. PIGEOTTO đã được huấn luyện trên một bộ dữ liệu lớn chứa hơn 4 triệu bức ảnh từ Flickr và Wikipedia, giúp nó học hỏi từ nhiều ngữ cảnh khác nhau trên khắp thế giới.
Đáng chú ý, PIGEOTTO là hệ thống đầu tiên có khả năng tự động hóa tốt, tức là nó có thể nhận biết được những bức ảnh mới mà không cần được huấn luyện trực tiếp.
Cả hai mô hình AI PIGEON và PIGEOTTO đều áp dụng phương pháp học tập đa tác vụ, cho phép chúng học từ dữ liệu địa lý và chú thích ngoài ảnh một cách thông minh.
Các thử nghiệm gần đây đã cho thấy rằng PIGEON có khả năng xác định vị trí chính xác trong phạm vi 25 km trong 40% thời gian khi phân tích cảnh ở Google Street View. Đồng thời, PIGEOTTO đã thiết lập kỷ lục trong việc giảm tới 50% sai số khoảng cách trung bình so với các hệ thống AI trước đó trong các bài kiểm tra điểm chuẩn.
Độ chính xác này có thể mở ra nhiều cơ hội mới cho việc gắn thẻ địa lý hình ảnh, ứng dụng du lịch, phương tiện truyền thông xã hội, hệ thống định vị, và nhiều ứng dụng khác.
Tuy nhiên, với mọi công nghệ mới đều có khả năng bị lạm dụng. Các nhà nghiên cứu cảnh báo rằng cần áp dụng các biện pháp bảo vệ để ngăn chặn việc sử dụng Trí tuệ nhân tạo cho mục đích phi đạo đức. Tuy nhiên, nói chung, các hệ thống tiên tiến này đã chứng minh được tiềm năng của Trí tuệ nhân tạo trong việc nhận diện chính xác hình ảnh trên toàn cầu.