Все о Цифровых системах - новости, статьи, обзоры, аналитика. Более 1000 компаний, товаров и услуг в каталоге.
Добавить компанию

Microsoft выпускает следующую небольшую языковую модель Phi-4

Рубрика: «Искусственный интеллект (AI)»

Производительность алгоритма Phi-4 примечательна в основном из-за способа его построения: Microsoft в основном обучала модель на синтетических или сгенерированных машиной данных, а не на веб-контенте, как это обычно делается.

Phi-4 — это четвертая итерация серии моделей языков с открытым исходным кодом, представленная Microsoft в прошлом году. Ее архитектура почти идентична архитектуре предшествующей модели Phi-3-medium. Обе нейронные сети имеют 14 миллиардов параметров и могут обрабатывать подсказки с количеством токенов до 4000 — единиц данных, каждая из которых содержит несколько символов.

Одно из отличий заключается в том, что модель Phi-4 оснащена модернизированным токенизатором. Это компонент, который разбивает пользовательские подсказки на токены, что значительно упрощает обработку текста.

Microsoft также улучшила «механизм внимания» Phi-4. Это программный компонент, который языковые модели используют для поиска в тексте наиболее важных деталей. Механизм внимания в предыдущем поколении phi-3-medium мог учитывать только до 2000 токенов пользовательского ввода. У модели Phi-4 он может анализировать до 4000 токенов.

Главной инновацией в Phi-4 является способ ее обучения. Microsoft обучила модель, используя не менее 50 синтетических наборов данных, которые в совокупности содержали около 400 миллиардов токенов. Исследователи компании создали файлы с помощью многоэтапного процесса.

На первом этапе для обучения искусственного интеллекта Microsoft собрала контент из общедоступной сети, своих существующих наборов данных и из других источников. Информация включала, среди прочего, десятки миллионов пар вопросов и ответов. Microsoft удалила вопросы, на которые она нашла несколько одинаковых ответов в сети, так как это часто является признаком того, что вопрос слишком прост. При этом Microsoft удалила вопросы, которые казались слишком сложными, поскольку доступные ответы значительно расходились друг с другом.

На втором этапе проекта Microsoft использовала открытый исходный код в качестве отправной точки процесса генерации синтетических данных. Компания ввела фрагмент кода в ИИ и попросила его сгенерировать вопрос, на который правильным ответом будет предоставленный фрагмент кода. Затем этот вопрос был включен в обучающий набор данных, который Microsoft использовала для разработки Phi-4.

После завершения процесса обучения Microsoft оценила качество выходных данных Phi-4 по более чем дюжине тестов. Алгоритм превзошел своего предшественника по всем параметрам, кроме одного. Превосходство в некоторых случаях было более чем на 20%.

«Phi-4 превосходит сопоставимые и более крупные модели в математических рассуждениях благодаря усовершенствованиям во всех процессах, включая использование высококачественных синтетических наборов данных, отбор высококачественных органических данных и инновации после обучения», — написала в своем блоге Эдже Камар, управляющий директор группы Microsoft AI Frontiers.

В настоящее время модель Phi-4 доступна через сервис Azure AI Foundry компании. В ближайшем будущем Microsoft планирует сделать код доступным на платформе Hugging Face.

Источник: