Microsoft открывает исходный код своей небольшой языковой модели Phi-4
Компания впервые подробно описала модель в прошлом месяце. Изначально модель Phi-4 была доступна только через службу разработки искусственного интеллекта Microsoft Azure Foundry. Теперь модель можно загрузить на Hugging Face - популярном веб-сайте для размещения проектов искусственного интеллекта с открытым исходным кодом.
Phi-4 — это четвертая итерация небольшой серии языковых моделей, представленной Microsoft в 2023 году. Она включает 14 миллиардов параметров, которые определяют, как нейронная сеть обрабатывает данные. Исследователи Microsoft в течение 21 дня обучали модель на кластере, состоящем из 1920 графических процессоров H100 от Nvidia.
Модель основана на архитектуре Transformer, которая является отраслевым стандартом и лежит в основе большинства крупных языковых моделей. Когда модели Transformer получают запрос от пользователя, они разбивают ввод на отдельные слова и определяют значение каждого слова, анализируя окружающий текст. Более того, они отдают приоритет тем частям окружающего текста, которые считаются наиболее релевантными.
Phi-4 реализует так называемый вариант архитектуры Transformer «только для декодера». Стандартная модель Transformer для определения значения слова анализирует текст до и после него. Модели «только для декодера» фокусируются исключительно на тексте, предшествующем слову, что сокращает объем данных для обработки, снижая тем самым затраты на вывод.
В исследовательской работе компания Microsoft подробно описала, что отточила качество вывода Phi-4, используя два метода оптимизации после обучения, известные как:
- Прямая оптимизация предпочтений;
- Контролируемая тонкая настройка.
Оба метода включают предоставление языковой модели с примерами, объясняющими, как она должна генерировать быстрые ответы.
В ходе внутренней оценки Microsoft сравнила Phi-4 с большой языковой моделью Llama 3.3 70B, имеющей в пять раз больше параметров. Компания утверждает, что Phi-4 показал лучшую производительность в популярных тестах GPQA и MATH. Эти тестовые наборы данных содержат научные вопросы и математические задачи соответственно.
Модель Phi-4 присоединилась к растущему списку небольших языковых моделей, исходный код которых был открыт за последний год крупными технологическими компаниями.
Так, например, в феврале прошлого года компания Google представила серию небольших языковых моделей под названием Gemma. Алгоритмы в серии имеют от 2 до 27 миллиардов параметров. По данным Google, версия с 27 миллиардами параметров может превзойти модели, превышающие ее размер более чем в два раза.