Alibaba представляет модель ИИ Qwen 2.5-Max, заявляя, что она превосходит DeepSeek-V3
Выпущенная во вторник Qwen 2.5-Max — второй крупный релиз большой языковой модели из Китая за последние две недели наряду с моделью рассуждений R1 от DeepSeek. Китайский стартап DeepSeek наделал много шума, заявив, что R1 может соперничать по производительности с самыми мощными моделями, созданными американскими компаниями и, при этом, обученный за малую долю от их стоимости.
«Мы разработали Qwen 2.5-Max, крупномасштабную модель LLM, состоящую из «смеси экспертов», которая была предварительно обучена на более чем 20 триллионах токенов и дополнительно обучена с использованием методологий контролируемой тонкой настройки и обучения с подкреплением на основе обратной связи с человеком», — говорится в сообщении Alibaba.
«Смесь экспертов» (mixture of experts), или MoE, - это архитектура LLM, которая использует множество специализированных моделей, работающих согласованно для более эффективного решения сложных задач в соответствии с определенным набором экспертных знаний. По сути, это похоже на то, как если бы команда моделей искусственного интеллекта, каждая из которых обучена на ответы в определенной области знаний, работала вместе, чтобы объединить общие знания для ответа на вопросы и для выполнения заданий.
По данным Alibaba, с помощью этой техники новая модель Qwen превзошла эффективность DeepSeek-V3 на ключевых бенчмарках, включая ArenaHard, LiveBench и MMLU-Pro. Компания также заявила, что она превзошла Claude 3.5 Sonnet, GPT-4o и Llama 3.1.
Архитектура также позволила компании создать модель с меньшими затратами, так как для её обучения потребовалось всего 20 триллионов токенов. Такая модель может работать с большей эффективностью, а для ее развертывания требуется меньше ресурсов.
«Масштабирование данных и размеров моделей не только демонстрирует достижения в области интеллектуального анализа моделей, но и отражает нашу непоколебимую приверженность новаторским исследованиям», - заявили в компании. «Мы стремимся расширить возможности мышления и логических рассуждений в больших языковых моделях за счет инновационного применения масштабируемого обучения с подкреплением».
В отличие от других моделей Qwen, которые были выпущены с открытым исходным кодом, Qwen 2.5-Max по-прежнему имеет закрытый исходный код. Alibaba сделала модель доступной через интерфейс прикладного программирования Alibaba Cloud, совместимый с API OpenAI, что упрощает интеграцию для разработчиков. Модель также доступна через интерфейс чат-бота Qwen Chat.