Все о Цифровых системах - новости, статьи, обзоры, аналитика. Более 1000 компаний, товаров и услуг в каталоге.
Добавить компанию

DeepSeek открывает исходный код своей модели рассуждений серии R1

Рубрики: «Искусственный интеллект (AI)», «Генеративный искусственный интеллект»

Две основные языковые модели в серии называются R1 и R1-Zero. По данным DeepSeek, R1 превосходит модель o1 от OpenAI по нескольким показателям рассуждений, тогда как модель R1-Zero менее мощная, но представляет собой потенциально значительный прогресс в исследовании машинного обучения.

Обе языковые модели имеют архитектуру машинного обучения типа «Mixture of Experts» (смесь экспертов), или MoE, с 671 миллиардом параметров. В режиме MoE несколько моделей (экспертов) работают вместе. Каждая модель оптимизирована для своего набора задач, а нейронная сеть выбирает лучшего эксперта для каждого входного запроса.

Главное преимущество архитектуры MoE заключается в том, что она снижает затраты на логический вывод. Когда пользователи вводят запрос в модель MoE, запрос не активирует весь искусственный интеллект, а только определенную нейронную сеть, которая будет генерировать ответ. В результате при ответе на запросы модели R1 и R1-Zero активируют менее одной десятой из 671 миллиарда параметров.

Компания DeepSeek обучила R1-Zero, используя не стандартный подход к обучению модели рассуждений. Оптимизированные для рассуждений большие языковые модели обычно обучаются с использованием двух методов, известных как «обучение с подкреплением» и «контролируемая тонкая настройка». Первый метод обучает модель ИИ выполнять задачу методом проб и ошибок. Контролируемая тонкая настройка, в свою очередь, повышает качество вывода ИИ, предоставляя модели примеры того, как выполнять поставленную задачу.

При обучении модели R1-Zero DeepSeek пропустила этап контролируемой тонкой настройки. Тем не менее, компании удалось оснастить модель навыками рассуждения, такими как способность разбивать сложные задачи на более простые подшаги.

«Это первое открытое исследование, подтверждающее, что способности к рассуждению больших языковых моделей могут быть стимулированы исключительно через обучение с подкреплением, без необходимости в контролируемой тонкой настройке», — пояснили исследователи DeepSeek. «Этот прорыв прокладывает путь для будущих достижений в этой области».

Хотя языковая модель R1-Zero имеет расширенный набор функций, качество её выходных данных ограничено. Ответы модели иногда страдают от «бесконечного повторения, плохой читаемости и смешения языков». Чтобы решить эти проблемы компания создала модель R1.

Модель R1 — это улучшенная версия R1-Zero, разработанная с использованием модифицированного рабочего процесса обучения. Этот рабочий процесс использует контролируемую тонкую настройку, которую DeepSeek исключил при разработке R1-Zero. Компания утверждает, что это изменение помогло значительно повысить качество вывода.

DeepSeek сравнила R1 с четырьмя популярными большими языковыми моделями, используя около двух десятков тестов производительности. По данным компании, ее модель превзошла оптимизированную для рассуждений модель o1 от OpenAI в нескольких тестах производительности. В большинстве тестов производительности, которые o1 завершил с более высоким результатом, R1 отстал от неё менее чем на 5%. Подробнее об этом было рассказано ранее.

Источник: