Microsoft представила большую языковую модель Phi-2 с 2,7 млрд параметров

Рубрики: «Искусственный интеллект (AI)», «Генеративный искусственный интеллект»

13.12.2023

Корпорация Microsoft представила новую модель искусственного интеллекта под названием Phi-2, которая превосходит по производительности даже более крупные модели, размеры которых превышают ее в 25 раз.

Microsoft сообщает в своем блоге, что Phi-2 — это языковая модель с 2,7 миллиардами параметров, которая демонстрирует «самую современную производительность» в сложных тестах, измеряющих ее рассуждения, понимание языка, математику, способности к программированию и здравый смысл. Phi-2 сейчас выпускается через каталог моделей Microsoft Azure AI Studio, а это означает, что теперь она доступна исследователям и разработчикам, желающим интегрировать модель в сторонние приложения.

Традиционно качество больших языковых моделей всегда было тесно связано с их общим размером, который измеряется в количестве параметров. Те модели, у которых больше параметров, обычно демонстрируют большие способностей. Однако с появлением Phi-2 ситуация изменилась.

По данным Microsoft, Phi-2 продемонстрировала способность соответствовать или даже превосходить возможности гораздо более крупных базовых моделей, включая Mistral с 7 млрд параметров, Llama 2 с 13 млрд параметров и даже в некоторых тестах Llama-2 с 70 млрд параметров.

Возможно, самым удивительным утверждением является то, что Pi-2 может даже превзойти производительность Gemini Nano от Google, которая является самой эффективной в серии больших языковых моделей Gemini, и о которой было объявлено на прошлой неделе. Модель Gemini Nano может работать на смартфонах и создана для выполнения задач непосредственно на самом устройстве, обеспечивая такие функции, как обобщение текста, расширенную корректуру и исправление грамматики, а также контекстные интеллектуальные ответы.

Исследователи Microsoft заявили, что провели с Phi-2 всесторонние тесты, которые охватывали понимание языка, рассуждение, математику, задачи по программированию и многое другое. Высокая производительность Phi-2 обусловлена тем, что модель была обучена на тщательно отобранных данных хрестоматийного качества, которые направлены на обучение рассуждению, знаниям и здравому смыслу. Это означает, что Phi-2 может учиться большему, используя меньше информации. Исследователи Microsoft также внедрили методы, позволяющие получать знания из более мелких моделей.

Phi-2 — это последняя версия в серии того, что исследователи Microsoft называют «малыми языковыми моделями» (small language models или SLM). Первая модель, Phi-1, дебютировала в начале этого года с 1,3 миллиарда параметров и была настроена для выполнения основных задач кодирования на Python. В сентябре компания запустила Phi-1.5 с 1,3 миллиарда параметров, обученную на новых источниках данных, включающих различные синтетические тексты, созданные с помощью программирования на естественном языке.

В Microsoft заявили, что эффективность Phi-2 делает модель идеальной платформой для исследователей, которые хотят изучить такие области, как повышение безопасности искусственного интеллекта, интерпретируемость и этическое развитие языковых моделей.

Источник: