Apple công bố công nghệ AI mới để huấn luyện LLM về hình ảnh và văn bản

20-03-2024 19:49:18

MM1, mô hình ngôn ngữ lớn của Apple, đã đạt được bước tiến lớn khi có khả năng nhận diện và đếm vật thể trong hình ảnh mà không cần qua quá trình đào tạo trước.

Đội ngũ nghiên cứu của Apple đã phát triển MM1, một phương pháp tiên tiến để huấn luyện các mô hình ngôn ngữ lớn (LLM) kết hợp cả thông tin văn bản và hình ảnh.

Theo một báo cáo mới từ nhóm nghiên cứu của công ty, MM1 là một thành phần của một nhóm mô hình đa phương thức có tới 30 tỷ tham số, sử dụng tập dữ liệu bao gồm các cặp chú thích hình ảnh, tài liệu văn bản-hình ảnh xen kẽ và dữ liệu chỉ có văn bản.

Apple công bố công nghệ AI mới để huấn luyện LLM về hình ảnh và văn bản

Apple giải thích rằng mô hình ngôn ngữ lớn đa phương thức (MLLM) là các mô hình quy mô lớn xử lý dữ liệu hình ảnh và văn bản để tạo ra kết quả đầu ra văn bản.

Apple đã công bố rằng MM1 có khả năng đếm các đối tượng, nhận diện từng chủ thể và vật thể trong hình ảnh, thể hiện kiến thức từ ngữ và hiểu biết thông thường về các đối tượng hàng ngày cũng như thực hiện các phép toán cơ bản.

Bên cạnh đó, mô hình cũng hỗ trợ việc học trong ngữ cảnh, có nghĩa là MM1 không cần phải được đào tạo lại hoặc điều chỉnh cho mỗi truy vấn mà có thể hiểu truy vấn dựa trên ngữ cảnh được cung cấp. Mô hình cũng có khả năng suy luận đa hình ảnh, cho phép nó diễn giải và rút ra kết luận từ nhiều hình ảnh.

Apple công bố công nghệ AI mới để huấn luyện LLM về hình ảnh và văn bản

MM1 chỉ là bước khởi đầu và công ty đang ở giai đoạn phát triển mô hình tiếp theo. Brandon McKinzie, một kỹ sư nghiên cứu cấp cao tại Apple, đang tập trung vào việc nghiên cứu các mô hình đa phương.

Thông tin về MM1 đã được công bố trong khi có nhiều thông tin mới cho biết Apple đang tiến hành đàm phán để tích hợp công nghệ AI Gemini của Google vào các tính năng của điện thoại thế hệ sau của họ. Việc hợp tác này sẽ giúp mở rộng cộng đồng người dùng của Google Gemini và cung cấp cho Apple quyền truy cập vào các công nghệ AI tiên tiến nhất hiện nay.

Cùng Chuyên Mục

CÔNG NGHỆ

năm trước

Tin tặc đọc được nội dung chatbot AI vì lý do này

Một lỗ hổng bảo mật mới đã được phát hiện trong chatbot AI phổ biến, cho phép tin tặc truy cập vào thông tin cá nhân và bí mật của người dùng.

CÔNG NGHỆ

năm trước

Giảm phí dịch vụ không quảng cáo cho người dùng Facebook và Instagram

Tập đoàn công nghệ Meta Platforms đã thông báo về việc giảm biểu phí cho tài khoản Facebook và Instagram từ 9,99 euro/tháng xuống còn 5,99 euro/tháng, bắt đầu áp dụng từ ngày 19/3. Động thái này nhằm hỗ trợ người dùng trong việc tiết kiệm chi phí khi sử dụng các dịch vụ của hai mạng xã hội này.

CÔNG NGHỆ

năm trước

Google phát triển tính năng tìm kiếm điện thoại thất lạc khi đã tắt nguồn

Google đã phát triển một hệ thống mới có khả năng tìm kiếm những thiết bị đã mất dù chúng đã tắt nguồn. Điều này giúp người dùng dễ dàng tìm lại các thiết bị của mình mà không cần phải lo lắng về việc chúng đã bị tắt nguồn.

CÔNG NGHỆ

năm trước

Robot sử dụng công nghệ ChatGPT thực hiện những công việc như con người

Một cuộc trình diễn mới của startup về robot Figure đã thể hiện sự tiềm năng của công nghệ ChatGPT từ OpenAI trong việc giúp các robot hình người có khả năng trò chuyện giống con người.

CÔNG NGHỆ

năm trước

Áo mới của vị lãnh đạo công nghệ giảm 40% vẫn đắt đỏ khi đến Việt Nam

CEO Nvidia Jensen Huang đã xuất hiện tại Việt Nam vào cuối năm ngoái và mặc một chiếc áo khoác đỏ siêu đắt.

CÔNG NGHỆ

năm trước

TP HCM đề xuất tra cứu thuê bao di động để ngăn chặn lừa đảo

Sở Thông tin và Truyền thông TP HCM cần mất từ 15-20 ngày để xác minh thông tin của chủ sim hoặc tài khoản mạng xã hội nước ngoài, điều này tạo điều kiện cho các đối tượng lừa đảo.

CÔNG NGHỆ