Tencent открывает исходный код линейки языковых моделей ИИ для перевода

Рубрики: «Искусственный интеллект (AI)», «Генеративный AI (Gen AI)»

02.09.2025

Компания Tencent Holdings Ltd. открыла исходный код новой линейки языковых моделей серии Hunyuan-MT, оптимизированной для задач перевода. Китайская технологическая компания утверждает, что её новые алгоритмы значительно превосходят возможности Google Translate в популярном тесте перевода для моделей на основе искусственного интеллекта.

Серия Hunyuan-MT включает четыре модели. Две флагманские модели, Hunyuan-MT-7B и Hunyuan-MT-Chimera-7B, поддерживают 7 миллиардов параметров. Существуют также две квантованные (сжатые) версии алгоритмов, которые жертвуют качеством вывода ради экономии памяти.

Tencent провела первоначальное обучение моделей, используя четыре различных набора данных. Первые два содержат текстовые фрагменты на 33 языках, но не содержат информации о том, как выполнить перевод. Два других набора данных включают несколько миллионов так называемых пар записей, каждая из которых содержит текстовый фрагмент и перевод.

По данным Tencent, процесс обучения обеспечил модели Hunyuan-MT не только возможностями перевода, но и значительным объёмом общих знаний. Компания протестировала алгоритмы с помощью теста общих знаний под названием «MMLU-Pro». В этом тесте модель Hunyuan-MT существенно превзошла модель Llama-3-8B-Base с 8 миллиардами параметров.

Затем Tencent провела этап обучения с подкреплением. В рамках этого этапа компания предложила моделям Hunyuan-MT ряд обучающих заданий и предоставила обратную связь по качеству их ответов. Модели использовали эту обратную связь для повышения качества выдаваемых результатов. Процесс обучения методом проб и ошибок контролировался специальной моделью искусственного интеллекта, которая оценивала переводы на основе их семантического сходства с исходным текстом. Также учитывались некоторые другие факторы, включая эффективность обработки терминологии, специфичной для данной области.

Первая модель ИИ в серии Hunyuan-MT, Hunyuan-MT-7B, основана на архитектуре стандартной языковой модели. Модель Hunyuan-MT-Chimera-7B использует более сложный подход к обработке данных, известный как «ансамблевое обучение». Подобно моделям со смесью экспертов, алгоритм ансамблевого обучения включает в себя несколько нейронных сетей. Однако, если модель со смесью экспертов использует только одну из своих нейронных сетей для обработки подсказки пользователя, то ансамблевое обучение использует их все. Оно генерирует несколько ответов на подсказку, а затем объединяет их в один более качественный ответ.

Компания Tencent сравнила языковую модель Hunyuan-MT с моделью Google Translate, используя бенчмарк WMT25. По данным компании, её модельный ряд показал лучшие результаты в 30 из 31 языковой пары. В некоторых случаях Hunyuan-MT показал результаты на 65% выше чем у Google Translate.

Эта серия моделей Tencent также превзошла алгоритмы нескольких других поставщиков искусственного интеллекта. Компания заявляет, что в бенчмарке WMT25 Hunyuan-MT показала более высокие результаты в большинстве языковых пар по сравнению с GPT-4.1 от Open AI и Claude 4 Sonnet от Anthropic.

Источник: