Tencent выпускает новую модель ИИ, которая опережает DeepSeek-R1
В компании пояснили, что модель способна выдавать практически «мгновенные ответы» в течение секунды за счет удвоения скорости вывода и сокращения задержки первого слова почти на 44%
В отличие от DeepSeek-R1 и других «моделей рассуждений», которые, по словам компании, «немного думают и затем дают ответ», новая модель Turbo S способна немедленно приступить к поиску ответа, используя короткую цепочку рассуждений, которая больше похожа на человеческую интуицию. Она объединена с цепочкой медленного мышления, которая обеспечивает возможность рассуждения для получения научных, математических и рациональных ответов.
В тестах на математику, рассуждение и знания Hunyuan Turbo S продемонстрировала производительность, сопоставимую с ведущими моделями на рынке, такими как DeepSeek-V3, GPT-4o от OpenAI и Claude от Anthropic.
Заметный успех китайских моделей ИИ компании DeepSeek, таких как R1 и V3, попал за последние месяцы в многочисленные заголовки новостей, побудив других разработчиков быстро создать конкурирующие модели ИИ. Конкуренция была острой со стороны таких компаний, как китайская Alibaba Group с ее моделью Qwen 2.5-Max, которая, по словам, компании превосходит V3 от DeepSeek.
Конечная модель Tencent представляет собой гибрид из архитектуры глубокого обучения Mamba, которая отлично справляется с обработкой длинных последовательностей, и архитектуры Transformer, способной понимать контекст, стоящий за сложными идеями и утверждениями в данных.
«Это также первый случай, когда отрасль успешно применила архитектуру Mamba к сверхбольшой модели Mixture of Experts без ущерба для себя», — говорится в заявлении Tencent.
Mixture of Experts или «смесь экспертов» — это метод машинного обучения, при котором несколько моделей ИИ разделяются в соответствии с различными экспертными знаниями и затем совместно работают для решения задач.
Компания также заявила, что новая архитектура значительно снижает затраты на обучение и развертывание. Поскольку такие компании, как DeepSeek, выпускают конкурентоспособные модели по низким ценам, это побудило Tencent и другие компании снизить цены на услуги и исследовать более эффективное обучение и вывод искусственного интеллекта. В будущем Turbo S станет ядром базовых моделей для вывода, генерации текста и программного кода.