Theo báo cáo chung từ Proof News và Wired, các tập đoàn lớn như Apple và Nvidia hiện đang phải đối mặt với cáo buộc sử dụng video từ YouTube không tuân thủ quy định để huấn luyện trí tuệ nhân tạo của họ. Việc sử dụng những video vi phạm điều khoản dịch vụ của YouTube cho việc đào tạo trí tuệ nhân tạo gây ra lo ngại về vấn đề quyền sở hữu nội dung và bảo mật dữ liệu.
Dữ liệu đào tạo này bao gồm "Phụ đề YouTube", một tập hợp lớn các bản ghi văn bản từ YouTube, với hơn 173.536 bản ghi, trong đó có hơn 12.000 video đã bị xóa kể từ khi tập dữ liệu được tạo vào năm 2020. Các kênh như Crash Course và Philosophy Tube, cùng với các nhân vật nổi tiếng trên YouTube như MrBeast và Pewdiepie, là một số trong số các nguồn nội dung bị ảnh hưởng.
EleutherAI, một tổ chức phi lợi nhuận hoạt động trong lĩnh vực nghiên cứu trí tuệ nhân tạo, đã phát triển tập dữ liệu "The Pile", một kho dữ liệu có dung lượng lên đến 800 GB được thiết kế nhằm "democratize" công nghệ trí tuệ nhân tạo, nhằm cung cấp nguồn tài nguyên cho cộng đồng mà không bị giới hạn bởi các công ty lớn. Tuy nhiên, sự xuất hiện của các tập đoàn lớn trong quá trình này đã làm mờ đi mục tiêu ban đầu, với việc sử dụng dữ liệu không được chấp nhận rộng rãi đã gây ra nhiều tranh cãi.
Các thảo luận đang diễn ra trong ngành về tính đạo đức của việc sử dụng dữ liệu đào tạo, đặt ra câu hỏi liệu các công ty có nên chịu trách nhiệm về việc thu thập dữ liệu không phù hợp hoặc không. Trong khi đó, EleutherAI chưa có bất kỳ phản hồi nào về các cáo buộc hoặc hành vi sai trái.
Ngành công nghệ hiện đang phát triển mạnh mẽ, tạo ra nhu cầu lớn cho phần cứng AI, với ước tính cần đạt 600 tỷ đô la lợi nhuận mỗi năm để đáp ứng. Sự cạnh tranh khốc liệt và chi phí ngày càng tăng có thể kích thích hành vi thu thập dữ liệu một cách trái phép, như đã thấy trong trường hợp này và các vụ việc khác như Gemini của Google. Câu hỏi về tính bền vững và đạo đức của việc thu thập dữ liệu cho AI vẫn đang là một vấn đề nóng trong ngành công nghệ hiện nay.