Исследователи Apple открыли серию языковых моделей OpenELM

25.04.2024

Исследователи корпорации Apple открыли исходный код серии небольших языковых моделей OpenELM, которые могут превзойти по производительности нейронные сети аналогичного размера.

Дебют OpenELM состоялся на следующий день после того, как корпорация Microsoft представила собственную небольшую линейку языковых моделей. Первая нейронная сеть в этой серии, Phi-3 Mini, имеет 3,8 миллиарда параметров. Microsoft заявляет, что ИИ может генерировать более точные быстрые ответы, чем Llama 2 - большая языковая модель с 70 миллиардами параметров.

Серия Apple OpenELM включает четыре модели с разными возможностями. Самая маленькая модель имеет 270 миллионов параметров, а самая продвинутая — около 1,1 миллиарда. Apple обучила четыре нейронные сети на наборе данных, содержащем около 1,8 триллиона токенов — единиц данных, каждая из которых содержит несколько символов.

Серия OpenELM основана на конструкции нейронной сети, известной как архитектура «Трансформер только для декодера» (decoder-only Transformer). Она также является основой для недавно дебютировавшей модели Microsoft Phi-3 Mini и многих более крупных больших языковых моделей. Основанная на этой архитектуре нейронная сеть при попытке определить значение слова может учитывать предшествующий ему текст, что повышает точность обработки.

Языковая модель состоит из взаимосвязанных строительных блоков, называемых слоями. Первый слой принимает запрос, предоставленный пользователем, выполняет часть обработки, необходимой для генерации ответа, а затем отправляет результаты обработки на второй слой. Затем этот рабочий процесс повторяется несколько раз, пока входные данные не достигнут последнего слоя искусственного интеллекта, который выводит быстрый ответ.

В моделях, основанных на архитектуре «Трансформер только для декодера» все слои обычно основаны на одной и той же общей конструкции. Apple заявляет, что в ее модельной серии OpenELM используется другой подход.

То, как слой искусственного интеллекта обрабатывает запросы пользователя, определяется настройками конфигурации, называемыми параметрами. Эти настройки отвечают за определение того, какие точки данных учитывает языковая модель при принятии решения. Поведение слоя ИИ определяется не только типом входящих в него параметров, но и количеством этих параметров.

В отличие от более традиционных языковых моделей, уровни OpenELM не имеют идентичной конструкции, а включают в себя различное сочетание параметров. Исследователи Apple определили, что такое расположение помогает оптимизировать качество ответов. Во внутреннем тесте самой мощной версии OpenELM удалось превзойти немного более крупную модель, обученную на вдвое большем объеме данных.

Помимо языковых моделей OpenELM, Apple также открыла исходный код нескольких инструментов, призванных помочь разработчикам легче включать модели этой серии в свои программные проекты. Одним из таких инструментов является библиотека, позволяющая запускать модели на iPhone и Mac. Библиотека использует фреймворк MLX, предназначенный для разработки систем искусственного интеллекта, чтобы облегчить задачу оптимизации нейронных сетей для собственных чипов компании.

Источник: