Không kém cạnh so với những "ông lớn" toàn cầu, Zalo đã nhanh chóng gia nhập vào lĩnh vực huấn luyện mô hình ngôn ngữ lớn (LLM). Kể từ năm 2023, công ty đã tập trung phát triển LLM tiếng Việt, với sự nghiên cứu và chế tạo hoàn toàn từ đội ngũ kỹ sư Việt Nam. Sự đầu tư này không chỉ mang lại tiềm năng cho ngành công nghệ thông tin mà còn khẳng định vị thế của Zalo trên bản đồ công nghệ thế giới.
Chỉ sau 6 tháng đào tạo, mô hình tiếng Việt đầu tiên của Zalo với 7 tỷ tham số đã chính thức ra mắt. Ấn tượng hơn nữa, nó đạt hiệu suất vượt trội với 150% so với GPT-3.5 của OpenAI, dựa trên Bộ tiêu chuẩn đánh giá năng lực LLM tiếng Việt VMLU. Đây là một bước tiến đáng kể trong công nghệ AI, khẳng định vị thế của Zalo trong lĩnh vực này.
Đến năm 2024, mô hình 13 tỷ tham số của Zalo đã chính thức vượt qua các đối thủ hàng đầu như GPT-4 của OpenAI, gemma-2-9b-it của Google và microsoft/Phi-3-small-128k-instruct của Microsoft. Mặc dù đứng thứ hai sau Llama-3-70B của Meta, Zalo vẫn khẳng định vị thế vượt trội của mình trong bảng xếp hạng năng lực tiếng Việt LLM do VMLU công bố. Thành tích này không chỉ đánh dấu bước tiến đáng ghi nhận trong công nghệ AI mà còn thể hiện sự phát triển mạnh mẽ của các sản phẩm nội địa.
Trong giai đoạn đầu của kỷ nguyên AI, thị trường Việt Nam đang đối mặt với những thách thức lớn trong việc huấn luyện mô hình ngôn ngữ lớn (LLM). Một trong những rào cản chính đến từ hạn chế về thiết bị huấn luyện, dữ liệu và trình độ kỹ thuật. Trong khi các công ty hàng đầu trên thế giới đã trang bị hàng nghìn GPU hiệu năng cao từ Nvidia thì các kỹ sư tại Việt Nam vẫn chưa có đủ điều kiện về hạ tầng máy chủ cần thiết. Điều này đặt ra không ít khó khăn cho sự phát triển của ngành công nghiệp AI trong nước.
Trên thực tế, tiếng Việt hiện đang đối diện với tình trạng thiếu hụt tài nguyên dữ liệu, so với nhiều ngôn ngữ khác như tiếng Anh hay tiếng Trung. Điều này khiến cho việc phát triển và huấn luyện các mô hình ngôn ngữ lớn (LLM) tại Việt Nam gặp nhiều khó khăn. Ngoài ra, nguồn lực con người và kinh nghiệm trong lĩnh vực này cũng chưa tương xứng với những quốc gia phát triển. Việc cải thiện tình hình này là cực kỳ cần thiết để nâng cao chất lượng công nghệ ngôn ngữ tại Việt Nam.
Đội ngũ Zalo đã xuất sắc vượt qua mọi rào cản trong việc nghiên cứu và thử nghiệm trên các GPU nhỏ để trang bị kiến thức và nâng cao năng lực huấn luyện mô hình ngôn ngữ lớn (LLM). Họ chuẩn bị sẵn sàng cho sự phát triển mạnh mẽ khi có hạ tầng tính toán lớn. Để hỗ trợ cho nỗ lực này, Zalo đã đặt hàng 8 máy chủ DGX H100 từ Nvidia. Bên cạnh đó, các chuyên gia AI của họ cũng đang đầu tư mạnh mẽ vào việc phát triển dữ liệu chất lượng, nhằm khắc phục tình trạng thiếu hụt nguồn dữ liệu tiếng Việt trên thị trường.
Zalo đã khởi đầu hành trình phát triển trí tuệ nhân tạo mặc dù đối mặt với nhiều thách thức từ các công ty lớn toàn cầu. Chúng tôi đã quyết định gia nhập thị trường một cách sớm nhất với mục tiêu xây dựng thành công mô hình AI riêng cho Việt Nam. Để đạt được điều này, Zalo đã hợp tác với các nhà nghiên cứu và kỹ sư hàng đầu từ những viện nghiên cứu uy tín trên thế giới, nhằm xây dựng một chiến lược phát triển mạnh mẽ và phù hợp. TS. Nguyễn Trường Sơn, Giám đốc Khoa học tại Zalo AI, chia sẻ những bước đi đầy quyết tâm này.
Mô hình trí tuệ nhân tạo của Zalo đang ghi nhận những thành công đáng kể không chỉ trong công tác nghiên cứu mà còn ở khả năng áp dụng thực tiễn. Điều này giúp người dùng Việt Nam dễ dàng tiếp cận và khai thác giá trị từ công nghệ hiện đại. Đặc biệt, vào đầu năm 2025, Zalo đã cho ra mắt Kiki Info, trợ lý hỏi đáp tổng hợp, hoạt động dưới dạng tài khoản chính thức (OA) trên nền tảng nhắn tin Zalo. Chỉ trong vòng chưa đầy hai tháng, Kiki Info đã thu hút tới 1 triệu lượt người dùng truy cập, cho thấy sự hấp dẫn và hiệu quả nổi bật của dịch vụ này.
Trong vòng hai tháng, ứng dụng thiệp AI của Zalo đã ghi nhận hơn 15 triệu thiệp được tạo ra và gửi đi. Sự thành công này cho thấy ứng dụng đã thu hút sự chú ý lớn từ người dùng Zalo. Nhiều người đã lựa chọn thiệp AI để gửi những lời chúc chân thành đến người thân và bạn bè vào những dịp lễ quan trọng.