Microsoft выпускает новые модели Phi, оптимизированные для мультимодальной обработки
Первая новинка — это модель Phi-4-mini, умеющая работать только с текстом. Вторая, Phi-4-multimodal, — это улучшенная версия Phi-4-mini, которая также может обрабатывать визуальный и аудио входы. Microsoft утверждает, что при выполнении определенных задач обе модели значительно превосходят альтернативы сопоставимого размера.
Текстовая модель Phi-4-mini имеет 3,8 миллиарда параметров, что делает ее достаточно компактной для работы на мобильных устройствах. Она основана на архитектуре нейронной сети «transformer», которая лежит в основе большинства больших языковых моделей.
Чтобы понять значение какого-либо слова стандартная модель transformer анализирует текст до и после этого слова. Согласно Microsoft, Phi-4-mini основана на версии архитектуры, называемой «decoder-only transformer» (преобразование только для декодирования), которая использует другой подход. Такие модели при попытке определить значение слова анализируют только текст, который предшествует слову, что снижает нагрузку на оборудование и ускоряет скорость обработки.
Phi-4-mini также использует второй метод оптимизации производительности, называемый «вниманием к групповым запросам» (grouped query attention, или GQA), который снижает нагрузку на оборудование за счет механизма внимания. Механизм внимания языковой модели помогает ей определить, какие точки данных наиболее релевантны для данной задачи обработки.
Phi-4-mini может генерировать текст, переводить существующие документы и выполнять действия во внешних приложениях. Модель особенно хороша в математических задачах и вопросах программирования, требующих «сложных рассуждений». В серии внутренних тестов компания Microsoft определила, что Phi-4-mini может выполнять такие задачи со «значительно» большей точностью, чем несколько языковых моделей аналогичного размера.
Вторая новая модель Microsoft, Phi-4-multimodal, является улучшенной версией Phi-4-mini с 5,6 миллиардами параметров. Она может обрабатывать не только текст, но и изображения, аудио и видео. Microsoft обучила модель, используя новую технику, которую она называет «Mixture of LoRA».
Адаптация искусственного интеллекта к новой задаче обычно требует изменения его весовых коэффициентов, параметров конфигурации, которые определяют, как ИИ обрабатывает данные. Этот процесс может быть дорогостоящим и отнимать много времени. В результате исследователи часто используют другой подход, известный как LoRa. Вместо того чтобы изменять существующие веса, LoRa учит модель выполнять незнакомую задачу, добавляя небольшое количество новых весов, оптимизированных для этой задачи.
Метод Mixture of LoRA от Microsoft применяет ту же концепцию к мультимодальной обработке. Чтобы создать Phi-4-multimodal, компания расширила Phi-4-mini с помощью весов, оптимизированных для обработки аудио- и визуальных данных. По словам Microsoft, эта техника позволяет избежать некоторых компромиссов, связанных с другими подходами к построению мультимодальных моделей.
Компания протестировала возможности модели Phi-4-multimodal, используя более полудюжины тестов для обработки визуальных данных. Средняя оценка модели составила 72 балла, уступив GPT-4 от OpenAI менее одного балла. Передовая модель Gemini Flash 2.0 от Google, дебютировавшая в декабре 2024 года, набрала 74,3 балла.
Модель Phi-4-multimodal достигла еще более высокой производительности в наборе тестов, включающих как визуальный, так и аудиовход. По данным Microsoft, модель превзошла Gemini-2.0 Flash «с большим отрывом». Phi-4-multimodal также превзошла InternOmni - большую языковую модель с открытым исходным кодом, созданную специально для обработки мультимодальных данных и имеющую большее количество параметров.
Microsoft сделает модели Phi-4-multimodal и Phi-4-mini доступными на Hugging Face по лицензии MIT, которая разрешает коммерческое использование.