Tại một ngôi làng nhỏ ở phía Tây Nam Bangalore, Preethi P. nghiêng nhẹ người vào chiếc ghế đẩu. Thông thường, cô sẽ dành hàng giờ để vá quần áo ở đây; trung bình, cô kiếm được chưa đến 1 USD/ngày cho công việc của mình. Hôm nay, thay vì bận rộn với đống vải vóc, Preethi P. cầm trên tay chiếc điện thoại, đọc to câu thoại bằng tiếng mẹ đẻ và thu chúng vào ứng dụng trên smartphone.
Preethi, một cô gái trẻ, là một trong số 70 người bản địa mà công ty khởi nghiệp Karya đã thuê để thu thập dữ liệu văn bản, giọng nói và hình ảnh. Điều đáng chú ý là Preethi được trả mức lương rất cao, ít nhất là theo tiêu chuẩn địa phương.
Sau 3 ngày làm việc với Karya, Preethi đã kiếm đươc 4.500 rupee (54 USD), tức là gấp hơn 4 lần số tiền một sinh viên tốt nghiệp trung học 22 tuổi có thể kiếm được từ công việc may vá. Preethi đã chia sẻ với Bloomberg rằng số tiền này đã đủ để thanh toán trọn vẹn khoản trả góp hàng tháng của gia đình.
"Điện thoại di động và internet là những thứ tôi cần duy nhất," Preethi nói.
Karya được thành lập vào năm 2021, sau sự bùng nổ của trí tuệ nhân tạo. Theo Nasscom, tổ chức thương mại công nghệ, dự báo rằng vào năm 2030, Ấn Độ sẽ có gần 1 triệu lao động như Preethi. Karya được cho là có khả năng tạo ra sự khác biệt bởi công ty cam kết trả lương rất hậu hĩnh cho phụ nữ nông thôn nghèo. Startup cũng cam kết tạo ra một cơ sở dữ liệu tiếng Ấn Độ chất lượng cao và đa dạng hơn, nhằm thúc đẩy sự tham gia của nhiều công ty công nghệ hơn.
Hằng năm, các tập đoàn công nghệ hàng đầu chi rất nhiều tỷ USD để thu thập dữ liệu để đào tạo các mô hình học máy và trí tuệ nhân tạo (AI). Theo Manu Chopra, một kỹ sư máy tính 27 tuổi tốt nghiệp đại học Stanford, trả lương thấp cho một công việc như vậy là một sự thất bại của ngành công nghệ. Manu Chopra cũng là người đứng sau thành công của Karya.
Bây giờ, một số nhân vật nổi tiếng trong Thung lũng Silicon đang tiếp cận Karya để giải quyết một trong những thách thức quan trọng nhất của các sản phẩm Trí tuệ nhân tạo: tìm kiếm dữ liệu chất lượng cao để xây dựng các công cụ giúp phục vụ tốt hơn hàng tỷ người dùng tiềm năng không nói tiếng Anh. Điều này cho thấy sự thay đổi mạnh mẽ trong lĩnh vực dữ liệu cũng như mối quan hệ giữa Thung lũng Silicon và các nhà cung cấp dữ liệu.
Đặc biệt, Microsoft cùng Karya đã hợp tác để mua dữ liệu giọng nói địa phương cho sản phẩm trí tuệ nhân tạo của họ. Trong khi đó, Quỹ Bill & Melinda Gates đã đồng hành cùng Karya để giảm thiểu sự thiếu cân bằng giới tính trong dữ liệu cung cấp cho các mô hình ngôn ngữ quan trọng. Google cũng đang phụ thuộc vào Karya và các đối tác địa phương để thu thập dữ liệu giọng nói từ 85 quận ở Ấn Độ.
Manish Gupta, người đứng đầu Google Research ở Ấn Độ, đã thông báo rằng Ấn Độ là quốc gia châu Á đầu tiên mà họ đã thử nghiệm Bard, và Google đang thử nghiệm Bard bằng 9 ngôn ngữ Ấn Độ. Ông cho biết rằng hiện nhiều ngôn ngữ vẫn chưa có sẵn trong kho kỹ thuật số và đây là một vấn đề rất nghiêm trọng.
Founder của Karya
Theo các chuyên gia, khi được áp dụng cho ngôn ngữ Nam Á, một số mô hình gặp khó khăn với ngữ pháp cơ bản. Một số người còn có lo ngại rằng các dịch vụ AI này có thể phản ánh sai lệch về các nền văn hóa. Trả lời lại, giáo sư Mehran Sahami, giảng viên khoa học máy tính tại Đại học Stanford, đã cho biết rằng điều quan trọng là phải đa dạng hóa dữ liệu đào tạo, bao gồm cả dữ liệu không phải tiếng Anh, để hệ thống AI "không duy trì những thành kiến gây hại, căm thù".
Karya đã mở rộng nhóm ngôn ngữ bằng cách nhắm mục tiêu đặc biệt vào tầng lớp công nhân nông thôn. Hơn 32.000 công nhân đã đăng nhập vào ứng dụng và hoàn thành 40 triệu tác vụ kỹ thuật số có tính phí, như nhận dạng hình ảnh, căn chỉnh đường viền, chú thích video hay giọng nói. Đối với Manu Chopra, mục tiêu không chỉ đơn thuần là cải thiện kho dữ liệu mà còn đóng góp vào việc giảm nghèo đói.
Người sáng lập Manu Chopra sống ở một vùng quê nghèo khó có tên là Shakur Basti và nhờ sự cố gắng mà anh ta có cơ hội nhập học Đại học Stanford. Sau khi tốt nghiệp, anh bắt đầu thực hiện đam mê của mình bằng cách sử dụng công nghệ để giải quyết tình trạng nghèo đói của quê hương.
Theo Manu Chopra, chỉ cần tiết kiệm 1.500 USD, một người Ấn Độ đã đủ điều kiện để gia nhập tầng lớp trung lưu. Tuy nhiên, người nghèo có thể phải mất tới 200 năm để đạt được mức tiết kiệm đó.
Chopra đã chia sẻ với Bloomberg rằng Microsoft đã phải chi ra một số tiền lớn để thu thập dữ liệu giọng nói để phục vụ cho hệ thống nghiên cứu trí tuệ nhân tạo. Tuy nhiên, chất lượng của dữ liệu thu được rất kém.
Karya có khả năng giải quyết vấn đề này. Công ty startup mà Chopra đã sáng lập đã thu thập 10.000 giờ dữ liệu giọng nói Marathi đặc biệt cho các dịch vụ AI của Microsoft. Các dữ liệu này cũng được đọc bởi cả giọng nam và giọng nữ, từ 5 khu vực khác nhau.
Saikat Guha, một nhà nghiên cứu tại Microsoft Research Ấn Độ, cho biết ông đã sử dụng nội dung của Karya để thực hiện một dự án hỗ trợ người khiếm thị tìm việc làm. "Chất lượng dữ liệu tốt hơn đáng kể so với bất kỳ nguồn thông tin nào khác. Nếu bạn trả công bằng cho người lao động, họ sẽ đầu tư nhiều hơn, làm việc chăm chỉ hơn và kết quả cuối cùng là dữ liệu sẽ được cải thiện", Saikat Guha đã nói.
Karya không ngừng thực hiện tham vọng của mình không chỉ tại Ấn Độ. Công ty đã thông báo đang tiến hành đàm phán về việc bán nền tảng của mình dưới dạng dịch vụ cho các tổ chức ở châu Phi và Nam Mỹ.
Hiện tại, ở Yelandur, một ngôi làng khác cách xa phía tây nam Bangalore, phụ nữ đang trông ngóng với một dự án tiếp theo của Karya với sự háo hức. Shambhavi S., một cô gái trẻ 25 tuổi, cũng là một trong số đó. Cô đã kiếm được vài nghìn rupee từ công việc tương tự như chị Preethi P.
Shambhavi S tâm sự: "Tôi chưa có kiến thức về trí tuệ nhân tạo, chưa từng nghe về điều đó. Sở thích của tôi chỉ là kiếm tiền và đào tạo con cái mình thành người đứng đắn".
Theo: Bloomberg