DeepSeek выпускает улучшенную большую языковую модель V3

Рубрики: «Генеративный AI (Gen AI)», «Языковые модели (LLM)»

25.03.2025

Компания DeepSeek выпустила улучшенную версию своей большой языковой модели (LLM) DeepSeek-V3 под новой лицензией с открытым исходным кодом.

DeepSeek-V3 — это большая языковая модель с открытым исходным кодом, дебютировавшая в декабре прошлого года. Она составляет основу DeepSeek-R1 - модели рассуждений, которая в начале этого года сделала китайскую лабораторию искусственного суперпопулярной. DeepSeek-V3 — это модель общего назначения, которая не оптимизирована специально для рассуждений, но может решать некоторые математические задачи и генерировать программный код.

До сих пор языковая модель распространялась под пользовательской лицензией с открытым исходным кодом. Новый релиз DeepSeek переходит на широко используемую лицензию MIT (разработана Массачусетским технологическим институтом). Это означает, что разработчики могут использовать обновленную модель в коммерческих проектах и изменять ее практически без ограничений. Что еще более примечательно, похоже, что новая версия DeepSeek-V3 более функциональна и эффективна в плане аппаратного обеспечения, чем оригинальная модель.

Большинство современных LLM могут работать только на видеокартах для центров обработки данных. Авни Ханнун, научный сотрудник исследовательской группы машинного обучения Apple Inc., запустил новую версию DeepSeek-V3 на компьютере Mac Studio. Модели удалось генерировать выходные данные со скоростью около 20 токенов в секунду.

ПК Mac Studio, о котором идет речь, имел высокопроизводительную конфигурацию со стоимостью 9’499 долларов США. Развертывание DeepSeek-V3 на машине требовало применения четырехбитного квантования. Это метод оптимизации больших языковых моделей, который жертвует некоторой точностью вывода ради меньшего использования памяти и меньшей задержки.

Также новая версия V3 оказалась лучше в программировании, чем исходный релиз DeepSeek. Это было подтверждено бенчмарком, который оценивает способность модели генерировать код на Python и Bash. Новый релиз достиг результата около 60%, что на несколько процентных пунктов лучше, чем исходный DeepSeek-V3.

Новая модель все еще отстает от DeepSeek-R1 - флагманской языковой модели, которая оптимизирована для рассуждений. Последняя версия DeepSeek-V3 также набрала более низкую оценку, чем Qwen-32B - оптимизированная для рассуждений LLM китайской компании Alibaba.

Несмотря на то, что Deep Seek-V3 содержит 671 миллиард параметров, при ответе на запросы активируется только около 37 миллиардов. Такая компоновка позволяет модели обходиться меньшим количеством вычислительных ресурсов, по сравнению с традиционными LLM, которые активируют все свои параметры. Согласно DeepSeek, новая большая языковая модель также более эффективна, чем DeepSeek-R1, что снижает затраты на вывод.

Первоначальная версия DeepSeek-V3 была обучена на наборе данных, включавшем 14,8 триллиона токенов. Процесс обучения занял около 2,8 миллионов часов видеокарты, что значительно меньше, чем обычно требуется для передовых LLM. Чтобы улучшить качество вывода новой модели, инженеры DeepSeek настроили ее с помощью быстрых ответов от DeepSeek-R1.

Источник: