Исследователи Apple разработали новый метод обучения больших языковых моделей (LLM), который позволяет легко интегрировать как текстовую, так и визуальную информацию.
Новый подход, названный MM1, открывает путь к созданию более интеллектуальных и гибких систем искусственного интеллекта.
MM1 использует разнообразный набор данных, включающий пары “изображение-подпись”, чередующиеся документы “изображение-текст” и данные только для текста.
Благодаря этому модель MM1 демонстрирует новый уровень точности в таких задачах, как:
- Создание подписей к изображениям
- Визуальные ответы на вопросы
- Логический вывод на естественном языке
Исследование Apple показывает, что комбинирование различных типов обучающих данных и архитектур моделей позволяет ИИ понимать и генерировать язык на основе как визуальных, так и лингвистических сигналов.
Это открывает новые возможности для решения задач, требующих тонкого понимания окружающего мира, таких как:
- Интерпретация сложных изображений
- Ответы на вопросы, связанные с визуальными элементами
Особую внимание в документе уделяется способности модели MM1 обучаться в контексте, особенно в конфигурации с 30 миллиардами параметров.
Эта версия модели демонстрирует замечательные возможности для многоэтапного анализа нескольких изображений с использованием метода “цепочки мыслей”.
Метод “цепочки мыслей” позволяет ИИ выполнять сложные задачи на основе минимального количества примеров.
Исследование MM1 является частью более широкой инициативы Apple по расширению возможностей искусственного интеллекта в условиях растущей конкуренции.
Ранее сегодня стало известно, что Apple ведет переговоры с Google о лицензировании генеративных широкоязычных моделей Google Gemini для использования в новых функциях iOS 18.