Китайская компания MiniMax выпускает модели ИИ, которые конкурируют с лучшими моделями отрасли

Рубрики: «Искусственный интеллект (AI)», «Генеративный AI (Gen AI)»

16.01.2025

На этой неделе китайский стартап MiniMax, поддерживаемый компаниями Alibaba и Tencent, представил три новые модели искусственного интеллекта: MiniMax-Text-01, MiniMax-VL-01 и T2A-01-HD.

Китайские компании продолжают выпускать модели искусственного интеллекта, которые по своим возможностям конкурируют с системами, разработанными OpenAI и другими американскими компаниями в области ИИ.

Стартап MiniMax представил на этой неделе три следующие модели:

MiniMax-Text-01 — только текстовая модель,
MiniMax-VL-01 — может понимать как текст, так и изображения,
T2A-01-HD — генерирует звуки — в частности, человеческую речь.

Компания MiniMax утверждает, что модель MiniMax-Text-01, размер которой составляет 456 миллиардов параметров, работает лучше, чем недавно представленная модель Gemini 2.0 Flash от Google. Это подтверждено на таких бенчмарках, как MMLU и SimpleQA, которые измеряют способность модели отвечать на математические задачи и вопросы, основанные на фактах. Параметры модели примерно соответствуют её навыкам в решении проблем, и модели с большим количеством параметров, как правило, работают лучше, чем модели с меньшим количеством параметров.

Следует отметить, что MiniMax-Text-01 имеет чрезвычайно большое контекстное окно. Контекст модели, или контекстное окно, относится к входным данным (например, тексту), которые модель рассматривает перед генерацией выходных данных. С контекстным окном в 4 миллиона токенов MiniMax-Text-01 может за один раз проанализировать около 3 миллионов слов — это чуть больше пяти копий книги «Война и мир». Окно контекста MiniMax-Text-01 примерно в 31 раз больше, чем у моделей GPT-4o и Llama 3.1.

Что касается модели MiniMax-VL-01, она соперничает с Claude 3.5 Sonnet от Anthropic в оценках, требующих мультимодального понимания. Стартап протестировал ее с помощью бенчмарка ChartQA, который ставит перед моделями задачу отвечать на запросы, связанные с графиками и диаграммами (например, «Каково пиковое значение оранжевой линии на этом графике?»). Однако во многих тестах бенчмарка MiniMax-VL-01 пока не превосходит модели Gemini 2.0 Flash от Google и GPT-4o от OpenAI.

Последняя из моделей MiniMax, выпущенная на этой неделе, T2A-01-HD, представляет собой аудиогенератор, оптимизированный для синтеза речи. T2A-01-HD может генерировать голос с регулируемой модуляцией, тоном и тенором примерно на 17 различных языках, включая английский и китайский, а также клонировать голос из аудиозаписи длительностью всего 10 секунд.

Модели MiniMax-Text-01 и MiniMax-VL-01 можно загрузить с GitHub и платформы разработки искусственного интеллекта Hugging Face. Однако модель T2A-01-HD пока доступна исключительно через API MiniMax и платформу искусственного интеллекта Hailuo. При этом все модели находятся под ограничительной лицензией, которая запрещает разработчикам использовать их для улучшения конкурирующих моделей ИИ и требует, чтобы платформы с более чем 100 миллионами активных пользователей в месяц запрашивали специальную лицензию у MiniMax.

Источник: