Đội ngũ nghiên cứu của Apple đã phát triển MM1, một phương pháp tiên tiến để huấn luyện các mô hình ngôn ngữ lớn (LLM) kết hợp cả thông tin văn bản và hình ảnh.
Theo một báo cáo mới từ nhóm nghiên cứu của công ty, MM1 là một thành phần của một nhóm mô hình đa phương thức có tới 30 tỷ tham số, sử dụng tập dữ liệu bao gồm các cặp chú thích hình ảnh, tài liệu văn bản-hình ảnh xen kẽ và dữ liệu chỉ có văn bản.
Apple giải thích rằng mô hình ngôn ngữ lớn đa phương thức (MLLM) là các mô hình quy mô lớn xử lý dữ liệu hình ảnh và văn bản để tạo ra kết quả đầu ra văn bản.
Apple đã công bố rằng MM1 có khả năng đếm các đối tượng, nhận diện từng chủ thể và vật thể trong hình ảnh, thể hiện kiến thức từ ngữ và hiểu biết thông thường về các đối tượng hàng ngày cũng như thực hiện các phép toán cơ bản.
Bên cạnh đó, mô hình cũng hỗ trợ việc học trong ngữ cảnh, có nghĩa là MM1 không cần phải được đào tạo lại hoặc điều chỉnh cho mỗi truy vấn mà có thể hiểu truy vấn dựa trên ngữ cảnh được cung cấp. Mô hình cũng có khả năng suy luận đa hình ảnh, cho phép nó diễn giải và rút ra kết luận từ nhiều hình ảnh.
MM1 chỉ là bước khởi đầu và công ty đang ở giai đoạn phát triển mô hình tiếp theo. Brandon McKinzie, một kỹ sư nghiên cứu cấp cao tại Apple, đang tập trung vào việc nghiên cứu các mô hình đa phương.
Thông tin về MM1 đã được công bố trong khi có nhiều thông tin mới cho biết Apple đang tiến hành đàm phán để tích hợp công nghệ AI Gemini của Google vào các tính năng của điện thoại thế hệ sau của họ. Việc hợp tác này sẽ giúp mở rộng cộng đồng người dùng của Google Gemini và cung cấp cho Apple quyền truy cập vào các công nghệ AI tiên tiến nhất hiện nay.