Tencent выпускает новую модель ИИ, которая опережает DeepSeek-R1

Рубрики: «Искусственный интеллект (AI)», «Генеративный AI (Gen AI)»

28.02.2025

Китайский технологический гигант Tencent Holdings представил новую модель искусственного интеллекта под названием Hunyuan Turbo S, разработанную как «быстро мыслящая модель», которая конкурирует с так называемыми «медленно мыслящими» моделями, такими как DeepSeek-R1.

В компании пояснили, что модель способна выдавать практически «мгновенные ответы» в течение секунды за счет удвоения скорости вывода и сокращения задержки первого слова почти на 44%

В отличие от DeepSeek-R1 и других «моделей рассуждений», которые, по словам компании, «немного думают и затем дают ответ», новая модель Turbo S способна немедленно приступить к поиску ответа, используя короткую цепочку рассуждений, которая больше похожа на человеческую интуицию. Она объединена с цепочкой медленного мышления, которая обеспечивает возможность рассуждения для получения научных, математических и рациональных ответов.

В тестах на математику, рассуждение и знания Hunyuan Turbo S продемонстрировала производительность, сопоставимую с ведущими моделями на рынке, такими как DeepSeek-V3, GPT-4o от OpenAI и Claude от Anthropic.

Tencent выпускает новую модель ИИ, которая опережает DeepSeek-R1

Заметный успех китайских моделей ИИ компании DeepSeek, таких как R1 и V3, попал за последние месяцы в многочисленные заголовки новостей, побудив других разработчиков быстро создать конкурирующие модели ИИ. Конкуренция была острой со стороны таких компаний, как китайская Alibaba Group с ее моделью Qwen 2.5-Max, которая, по словам, компании превосходит V3 от DeepSeek.

Конечная модель Tencent представляет собой гибрид из архитектуры глубокого обучения Mamba, которая отлично справляется с обработкой длинных последовательностей, и архитектуры Transformer, способной понимать контекст, стоящий за сложными идеями и утверждениями в данных.

«Это также первый случай, когда отрасль успешно применила архитектуру Mamba к сверхбольшой модели Mixture of Experts без ущерба для себя», — говорится в заявлении Tencent.

Mixture of Experts или «смесь экспертов» — это метод машинного обучения, при котором несколько моделей ИИ разделяются в соответствии с различными экспертными знаниями и затем совместно работают для решения задач.

Компания также заявила, что новая архитектура значительно снижает затраты на обучение и развертывание. Поскольку такие компании, как DeepSeek, выпускают конкурентоспособные модели по низким ценам, это побудило Tencent и другие компании снизить цены на услуги и исследовать более эффективное обучение и вывод искусственного интеллекта. В будущем Turbo S станет ядром базовых моделей для вывода, генерации текста и программного кода.

Источник: