Công dụng của các công cụ dựa trên trí tuệ nhân tạo (AI) có thể lên tới hàng trăm. Điều đó không chỉ đối với công nghệ đã cách mạng hóa việc tạo ra nội dung như DALL-E, ChatGPT hoặc Bing Chat (đã được đổi tên thành Copilot), mà còn cho phép nhận biết được nơi mà bức ảnh được chụp.
Ba sinh viên Đại học Stanford là Michal Skreta, Silas Alberti và Lukas Haas đã bắt tay vào dự án liên quan đến GeoGuessr. Đó là một trò chơi trực tuyến nổi tiếng mà ở đó, người chơi được cung cấp một hình ảnh thu được từ công cụ Street View của và họ phải ghim trên bản đồ thế giới để cố gắng đến vị trí được đề cập gần nhất có thể.
Bởi vì trò chơi này đang rất phổ biến, nên các sinh viên tự đặt ra câu hỏi liệu trí tuệ nhân tạo có thể đánh bại một người chơi hay không. Để làm được điều đó, họ đã lựa chọn sử dụng một phần mềm phân tích hình ảnh dựa trên nền tảng OpenAI, được gọi là CLIP. Cơ bản, những gì hệ thống này thực hiện là tìm hiểu về hình ảnh thông qua các mô tả văn bản.
Sau khi đã điều chỉnh hệ thống và tiến hành đào tạo với khoảng 500.000 hình ảnh từ Google Street View, bộ ba sinh viên đã thành công trong việc tạo ra hệ thống PIGEON. Dù quá trình đào tạo không quá sâu nhưng PIGEON vẫn có thể đoán chính xác quốc gia của 95% hình ảnh và xác định vị trí một cách chính xác, với sai số chỉ khoảng 40km.
Dữ liệu Street View của Google chơi một vai trò quan trọng trong hoạt động của PIGEON.
Với những lợi ích mà nó mang lại, PIGEON có thể hỗ trợ các tổ chức môi trường trong việc giám sát sự đa dạng sinh học của môi trường, có thể được sử dụng như một công cụ giảng dạy hoặc để xác định các vấn đề cần sửa chữa như đường dây điện hay con đường hỏng. Tuy nhiên, điều này cũng có thể tạo ra rủi ro khi các tổ chức thám tử hoặc cơ quan chính phủ sử dụng công nghệ này để kiểm soát dân số.
Mặc dù ba sinh viên trên đã công bố bài viết trên trang web arXiv nhằm trình bày một số khía cạnh về hệ thống, nhưng họ chưa tiết lộ toàn bộ những điều bí mật bên trong PIGEON vì sợ rằng nó có thể được sử dụng với các mục đích không đạo đức.