Alibaba выпускает новую модель ИИ для поддержки интеллектуальных голосовых приложений

Рубрики: «Искусственный интеллект (AI)», «Облачные технологии и сервисы»

28.03.2025

Компания Alibaba Cloud объявила о запуске новой модели искусственного интеллекта в семействе Qwen, которая обладает уникальной способностью понимать текст, аудио и видео, а также отвечать в голосовых диалогах в режиме реального времени.

Компания заявила, что модель, получившая название Qwen2.5-Omni-7B, достаточно мала и может поместиться на смартфонах и других мобильных устройствах. Несмотря на свой компактный размер, всего 7 миллиардов параметров, новая модель обеспечивает высокую производительность и мощные мультимодальные возможности. Она способна понимать данные с видеокамер и следить за экраном, пока пользователь управляет устройством, чтобы реагировать в режиме реального времени. Это означает, что ее можно комбинировать с приложениями для ведения разговоров.

«Это уникальное сочетание делает Qwen2.5-Omni-7B идеальной основой для разработки гибких и экономически эффективных агентов ИИ, которые обеспечивают ощутимую ценность, особенно для интеллектуальных голосовых приложений», — говорится в заявлении Alibaba Cloud.

Пользователи могут использовать модель для получения помощи во время покупок в режиме реального времени, для пошагового руководства по приготовлению пищи путем анализа ингредиентов на видео или даже чтения PDF-файла на экране, чтобы облегчить утомительный поиск. Модель также может стать помощником для навигации людей с ослабленным зрением, поскольку она умеет считывать знаки, понимать контекстные подсказки и сопоставлять голоса с лицами.

Alibaba выпустила Qwen2.5-Omni-7B с открытым исходным кодом на Hugging Face и GitHub. Кроме того, модель доступна на Qwen Chat и через сообщество ModelScope. Открытый исходный код - это тип разработки программного обеспечения, при котором код и значения моделей искусственного интеллекта находятся в свободном доступе для разработчиков, которые могут их использовать, изменять и распространять. На сегодняшний день Alibaba Cloud выпустила более 200 генеративных моделей ИИ с открытым исходным кодом.

С момента выпуска модели DeepSeek-R1 с открытым исходным кодом от одноименного разработчика искусственного интеллекта китайские компании добились успехов на рынке искусственного интеллекта. Семейство моделей DeepSeek R1 представило возможности логических рассуждения, то есть способность «обдумывать» проблемы. В прошлом месяце китайский технологический гигант Tencent Holdings Ltd. выпустил модель Hunyuan Turbo S, которая, по заявлению компании, превзошла R1.

Также на прошлой неделе китайский поисковый интернет-гигант Baidu выпустил мультимодальную модель рассуждений Ernie-X1, конкурирующую с DeepSeek. В конце января Alibaba также обновила свою самую большую модель искусственного интеллекта Qwen 2.5-Max, заявив, что она превзошла по характеристикам модель DeepSeek-V3.

Источник: