Nvidia и Microsoft выпускают новые малые языковые модели

Рубрики: «Искусственный интеллект (AI)», «Нейронные сети»

22.08.2024

Корпорация Nvidia выпустила облегченную языковую модель Mistral-NeMo-Minitron 8B, которая при выполнении ряда задач может превосходить нейронные сети сопоставимого размера. Компания Microsoft также выпустила несколько собственных языковых моделей с открытым исходным кодом, которые предназначены для работы на устройствах с ограниченной вычислительной мощностью.

Mistral-NeMo-Minitron 8B — это уменьшенная версия языковой модели Mistral NeMo 12B, которую Nvidia представила в прошлом месяце. Последний алгоритм был разработан в сотрудничестве со стартапом в области искусственного интеллекта Mistral AI. Компания Nvidia создала Mistral-NeMo-Minitron 8B, используя два метода машинного обучения, известных как «обрезка» и «дистилляция».

Обрезка — это способ снижения требований к оборудованию модели путем удаления ненужных компонентов из ее кодовой базы. Нейронная сеть состоит из множества искусственных нейронов - фрагментов кода, каждый из которых выполняет один относительно простой набор вычислений. Некоторые из этих фрагментов кода играют менее активную роль в обработке пользовательских запросов, таким образом их можно удалить без существенного снижения качества вывода ИИ. После обрезки Mistral NeMo 12B, Nvidia перешла к так называемой фазе дистилляции проекта.

Дистилляция — это процесс, в ходе которого инженеры переносят знания искусственного интеллекта во вторую нейронную сеть, более эффективную с точки зрения аппаратной части. В данном случае второй моделью была Mistral-NeMo-Minitron 8B, которая имеет на 4 миллиарда параметров меньше, чем исходная версия модели. Разработчики и раньше могли снизить требования к оборудованию проекта ИИ, обучив совершенно новую модель с нуля. Однако, дистилляция предлагает несколько преимуществ по сравнению с этим подходом, в частности, лучшее качество вывода ИИ. Дистилляция большой модели в меньшую также обходится дешевле, поскольку для этой задачи не требуется столько данных для обучения.

Подход Nvidia к объединению методов обрезки и дистилляции во время разработки значительно повысил эффективность языковой модели Mistral-NeMo-Minitron 8B.

«Новая модель достаточно мала, чтобы работать на рабочей станции на базе Nvidia RTX, и при этом превосходит все остальные модели по нескольким бенчмаркам для чат-ботов на базе ИИ, виртуальных помощников, генераторов контента и образовательных инструментов», — написала в своем блоге руководитель Nvidia Кари Бриски.

Выпуск Mistral-NeMo-Minitron 8B состоялся на следующий день после того, как Microsoft представила исходный код трех собственных языковых моделей, разработанных с учетом эффективности оборудования. Самая компактная модель в линейке называется Phi-3.5-mini-instruct. Она имеет 3,8 миллиарда параметров и может обрабатывать запросы содержащие до 128'000 токенов, что позволяет ей принимать объемные деловые документы. Тест производительности, проведенный Microsoft, показал, что Phi-3.5-mini-instruct может выполнять некоторые задачи лучше, чем Llama 3.1 8B и Mistral 7B, которые имеют примерно вдвое больше параметров.

Microsoft также открыла исходный код двух других языковых моделей. Первая, Phi-3.5-vision-instruct, является версией Phi-3.5-mini-instruct, которая может выполнять задачи анализа изображений, таких как загруженные пользователем диаграммы. Она была развернута вместе с Phi-3.5-MoE-instruct - значительно более крупной моделью, которая включает 60,8 млрд параметров. Когда пользователь вводит в модель подсказку, то активируется только одна десятая часть этих параметров, что значительно снижает количество необходимого для вывода оборудования.

Источник: