Alibaba представляет модель ИИ Qwen 2.5-Max, заявляя, что она превосходит DeepSeek-V3

Рубрики: «Искусственный интеллект (AI)», «Генеративный AI (Gen AI)», «Чат-боты»

30.01.2025

Alibaba Cloud, подразделение облачных вычислений китайской Alibaba Group, выпустило свою новейшую большую языковую модель (LLM) Qwen 2.5-Max, которая, по утверждению компании, превосходит самые мощные современные модели ИИ.

Alibaba представляет модель искусственного интеллекта Qwen 2.5-Max

Выпущенная во вторник Qwen 2.5-Max — второй крупный релиз большой языковой модели из Китая за последние две недели наряду с моделью рассуждений R1 от DeepSeek. Китайский стартап DeepSeek наделал много шума, заявив, что R1 может соперничать по производительности с самыми мощными моделями, созданными американскими компаниями и, при этом, обученный за малую долю от их стоимости.

«Мы разработали Qwen 2.5-Max, крупномасштабную модель LLM, состоящую из «смеси экспертов», которая была предварительно обучена на более чем 20 триллионах токенов и дополнительно обучена с использованием методологий контролируемой тонкой настройки и обучения с подкреплением на основе обратной связи с человеком», — говорится в сообщении Alibaba.

«Смесь экспертов» (mixture of experts), или MoE, - это архитектура LLM, которая использует множество специализированных моделей, работающих согласованно для более эффективного решения сложных задач в соответствии с определенным набором экспертных знаний. По сути, это похоже на то, как если бы команда моделей искусственного интеллекта, каждая из которых обучена на ответы в определенной области знаний, работала вместе, чтобы объединить общие знания для ответа на вопросы и для выполнения заданий.

По данным Alibaba, с помощью этой техники новая модель Qwen превзошла эффективность DeepSeek-V3 на ключевых бенчмарках, включая ArenaHard, LiveBench и MMLU-Pro. Компания также заявила, что она превзошла Claude 3.5 Sonnet, GPT-4o и Llama 3.1.

Архитектура также позволила компании создать модель с меньшими затратами, так как для её обучения потребовалось всего 20 триллионов токенов. Такая модель может работать с большей эффективностью, а для ее развертывания требуется меньше ресурсов.

«Масштабирование данных и размеров моделей не только демонстрирует достижения в области интеллектуального анализа моделей, но и отражает нашу непоколебимую приверженность новаторским исследованиям», - заявили в компании. «Мы стремимся расширить возможности мышления и логических рассуждений в больших языковых моделях за счет инновационного применения масштабируемого обучения с подкреплением».

В отличие от других моделей Qwen, которые были выпущены с открытым исходным кодом, Qwen 2.5-Max по-прежнему имеет закрытый исходный код. Alibaba сделала модель доступной через интерфейс прикладного программирования Alibaba Cloud, совместимый с API OpenAI, что упрощает интеграцию для разработчиков. Модель также доступна через интерфейс чат-бота Qwen Chat.

Источник: