Alibaba выпускает самую передовую модель рассуждений Qwen3
Компания Alibaba заявила, что новые модели Qwen3 превосходят возможности лучших моделей DeepSeek в таких областях, как программирование и решение математических задач. Компания выпускает ряд моделей в рамках семейства Qwen3 по лицензии с открытым исходным кодом, размер которых варьируется от 600 миллионов до 235 миллиардов параметров. Как правило, чем больше параметров у модели, тем лучше она работает.
В новой серии Qwen3 есть две «смеси экспертов» или модели MoE, которые, по словам Alibaba, способны конкурировать с самыми передовыми моделями рассуждений, выпущенными Google и Anthropic PBC. Модели рассуждения разработаны таким образом, чтобы имитировать размышления людей о проблемах, тратя больше времени на обдумывание и проверку фактов на точность.
MoE (Mixture of Experts) или «смесь экспертов» — это метод машинного обучения, в котором несколько специализированных моделей (экспертов) работают вместе, а сеть фильтрации выбирает лучшего эксперта для каждого входного запроса. Используя технику MoE, модели ИИ могут улучшить свои навыки рассуждения, разделив задачу на более мелкие сегменты, подобно тому, как компания может нанимать команды специалистов, чтобы сосредоточиться на определенных частях более сложной проблемы. Разделяя задачи по разным частям модели, процесс решения проблем становится более эффективным.
«Мы интегрировали режимы мышления и не-мышления, предлагая пользователям гибкость в управлении бюджетом мышления», — заявила команда Qwen из Alibaba. «Эта конструкция позволяет пользователям с большей легкостью настраивать бюджеты для конкретных задач».
Модели Qwen3 поддерживают 119 языков и были обучены на наборе данных, содержащем почти 36 триллионов токенов, представляющие собой необработанные биты данных, которые модели обрабатывают во время «обучения». Один миллион токенов эквивалентен примерно 750'000 слов.
В различных тестах производительность моделей Qwen3 от Alibaba показала впечатляющие результаты, опередив недавние «высококлассные» модели от американских компаний, занимающихся разработкой искусственного интеллекта, такие как модели o3-mini и o4-mini от OpenAI. Например, на бенчмарке Codeforces, который измеряет способность моделей писать программный код, самая большая модель Qwen-3-235B-A22B превзошла o3-mini от OpenAI и Gemini 2.5 Pro от Google. Она также превзошла 03-mini на математическом бенчмарке AIME, а также на тесте BFCL, который оценивает способности моделей ИИ к рассуждению.
Появление мощных китайских моделей ИИ с открытым исходным кодом повысило ставки для американских компаний ИИ, которые до недавнего времени считались лидерами отрасли. Но их статус оказался под угрозой в связи с тем, что американские модели, как правило, обучаются по гораздо более высоким ценам, чем их китайские аналоги.