IBM выпускает серию языковых моделей Granite 4

Семейство алгоритмов включает четыре модели. Они содержат от 3 до 32 миллиардов параметров. IBM утверждает, что они могут превосходить модели сопоставимого размера, используя при этом меньше памяти.
Granite-4.0-Micro - один из самых маленьких алгоритмов в линейке языковых моделей. Он создан на архитектуре Transformer, которая лежит в основе большинства крупных языковых моделей. Флагманской функцией архитектуры является так называемый «механизм внимания» (attention mechanism). Этот механизм позволяет языковой модели просматривать фрагмент текста, выделять наиболее важные предложения и расставлять их по приоритетам при принятии решений.
Три другие модели Granite 4 сочетают в себе механизм внимания с компонентами обработки на основе архитектуры нейронной сети Mamba - альтернативы архитектуры Transformer. Главное преимущество этой технологии — более высокая аппаратная эффективность. Mamba может выделять наиболее важные фрагменты данных в подсказке и соответствующим образом корректировать свою обработку. Отличие от Transformer заключается в том, что Mamba делает это, используя не «механизм внимания», а так называемую модель «пространства состояний». Эта математическая структура изначально использовалась для таких задач, как расчёт траектории полёта космических аппаратов.
Для обработки длинных подсказок механизм внимания архитектуры Transformer требует значительного объёма памяти. Каждый раз, когда длина подсказки удваивается, использование оперативной памяти механизмом внимания увеличивается в четыре раза. Модели Mamba требуют лишь малую часть памяти, что снижает затраты на вывод.
Серия Granite 4 основана на последней версии архитектуры Mamba-2, впервые представленной в начале прошлого года. Один из основных компонентов технологии сжат примерно в 25 строк кода. Это позволяет Mamba 2 выполнять некоторые задачи, используя меньше оборудования, по сравнению с исходной версией архитектуры.
Самая продвинутая модель Granite 4, Granite-4.0-H-Small, включает в себя 32 миллиарда параметров. Она имеет смешанную экспертную архитектуру, которая для ответа на запросы активирует 9 миллиардов параметров. Представители IBM предполагают, что разработчики будут использовать эту модель для таких задач, как обработка запросов клиентов в службу поддержки.
Два других алгоритма Mamba-Transformer в этой серии, Granite-4.0-H-Tiny и Granite-4.0-H-Micro, содержат 7 и 3 миллиарда параметров соответственно. Они разработаны для чувствительных к задержкам сценариев, где скорость обработки важнее точности.
«Хотя новая гибридная архитектура Granite способствует повышению эффективности и результативности обучения модели, большая часть улучшения точности модели достигается за счет усовершенствований в наших методологиях обучения (и постобучения), а также постоянного расширения и уточнения обучающих данных Granite», — написали сотрудники IBM в блоге.


