Một tháng trước khi ChatGPT ra mắt, OpenAI đã tuyển dụng Boru Gollo - một luật sư đến từ Kenya - để kiểm tra hiệu quả của các mô hình trí tuệ nhân tạo GPT-3.5 và GPT-4 bằng cách yêu cầu chatbot tạo ra những câu trả lời có nội dung thù địch hoặc sai lệch.
Gollo là một trong 50 cá nhân bên ngoài mà OpenAI đã thuê để gia nhập vào "đội đỏ" - một nhóm giả vờ là kẻ thù, thâm nhập vào hệ thống vật lý hoặc kỹ thuật số của một tổ chức theo chỉ đạo để báo cáo lại và giúp tổ chức cải thiện khả năng bảo mật.
Gollo đã yêu cầu ChatGPT đưa ra những gợi ý mang tính bạo lực trong khi các thành viên khác của nhóm thực hiện nhiệm vụ như yêu cầu chatbot viết bài đăng để thuyết phục một người gia nhập tổ chức khủng bố hay cung cấp cách thức để chế tạo súng, chất hóa học nguy hiểm tại nhà. Những yêu cầu dạng này được gắn thẻ trong hệ thống để OpenAI nhận diện và loại bỏ trước khi ChatGPT chính thức ra mắt.
Các chuyên gia bảo mật của "đội đỏ" đã hỗ trợ cải thiện độ an toàn của các công cụ trí tuệ nhân tạo. (Ảnh: Entrepreneur).
Để ngăn chặn việc người dùng lợi dụng Trí tuệ Nhân tạo (AI) làm việc xấu, các hacker đã được gọi là "đội đỏ" đã sử dụng tư duy tàn ác để đánh lừa AI và khám phá các điểm mù và rủi ro tiềm ẩn trong công nghệ nhằm sửa chữa chúng.
Trong khi các tập đoàn công nghệ lớn trên toàn cầu cạnh tranh nhau để tạo ra và tung ra các công cụ trí tuệ nhân tạo tiên tiến, đội ngũ "red team" chuyên môn về trí tuệ nhân tạo nội bộ của họ đóng một vai trò ngày càng quan trọng trong việc đảm bảo tính an toàn của các mô hình trí tuệ nhân tạo đối với công chúng.
Một số mô hình trí tuệ nhân tạo như GPT3.5 của OpenAI, Llama 2 của Meta (công ty mẹ Facebook) và LaMDA của Google đã được các nhà phát triển tham gia vào một sự kiện do Nhà Trắng hậu thuẫn, nhằm cung cấp cho các tin tặc bên ngoài cơ hội xâm nhập vào hệ thống của những mô hình đó. Đầu năm nay, Google đã thành lập một đội "red team" riêng để đảm bảo an toàn cho các mô hình của họ.
On the other hand, "red teams" often face many challenges in balancing the safety and security of AI models with their utility. Cristian Canton, head of Facebook's AI red team, says, "A model that says no to everything is very safe but useless. The more useful the model is, the more risk you face with the possibility of unsafe answers." Mặt khác, “đội đỏ” thường gặp không ít thách thức để giữ cân bằng giữa sự an toàn và bảo mật của các mô hình AI với tính hữu ích của chúng. Cristian Canton, người đứng đầu đội đỏ AI của Facebook, cho biết: “Một mô hình cứ nói không với mọi thứ là an toàn nhưng vô dụng. Từng tạo ra mô hình càng hữu ích, bạn càng đối mặt với rủi ro khi khả năng trả lời không an toàn xuất hiện".
Theo Daniel Fabian - leader của "red team" về AI tại Google, bảo vệ các mô hình AI dựa trên dữ liệu lớn khác với các phương pháp truyền thống.
"The "Red team" provides a competitive advantage for technology companies in the AI race." Dịch: Nhóm "Đội đỏ" mang lại lợi thế cạnh tranh cho các công ty công nghệ trong cuộc đua trí tuệ nhân tạo.
Với việc ngày càng tăng cường sự giám sát đối với các ứng dụng trí tuệ nhân tạo của người dùng và các cơ quan chính phủ, "đội đỏ" cũng tạo ra sự cạnh tranh vượt trội cho các công ty công nghệ trong cuộc đua của AI.
Meta thành lập "red team" và an tỉnh "red team" tổ chức nhiều thử thách nội bộ trước khi AI trở thành trào lưu toàn cầu như ngày nay, với mục đích để các hacker phát hiện và loại bỏ các bài đăng chứa nội dung độc hại, bao gồm thông tin sai lệch, ảnh trần trụi, video giả mạo, được tạo ra bởi AI trên Instagram và Facebook.
Trong tháng 7 vừa qua, một công ty mạng xã hội đã thuê 350 cá nhân làm việc trong đội "red team", bao gồm các chuyên gia bên ngoài, nhân viên hợp đồng và một nhóm nội bộ khoảng 20 người, để kiểm tra hiệu suất của phần mềm trí tuệ nhân tạo mới có tên gọi Llama 2.
Nhóm này yêu cầu Llama 2 cung cấp thông tin về cách thực hiện những việc làm phi pháp như trốn thuế, khởi động ô tô mà không cần chìa khóa hay xây dựng kế hoạch lừa đảo… Cristian Canton chia sẻ: “Phương châm của chúng tôi là càng đổ nhiều mồ hôi trong khi luyện tập, bạn sẽ càng ít đổ máu trong các trận chiến”.