Alibaba выпускает новую модель ИИ для поддержки интеллектуальных голосовых приложений
Компания заявила, что модель, получившая название Qwen2.5-Omni-7B, достаточно мала и может поместиться на смартфонах и других мобильных устройствах. Несмотря на свой компактный размер, всего 7 миллиардов параметров, новая модель обеспечивает высокую производительность и мощные мультимодальные возможности. Она способна понимать данные с видеокамер и следить за экраном, пока пользователь управляет устройством, чтобы реагировать в режиме реального времени. Это означает, что ее можно комбинировать с приложениями для ведения разговоров.
«Это уникальное сочетание делает Qwen2.5-Omni-7B идеальной основой для разработки гибких и экономически эффективных агентов ИИ, которые обеспечивают ощутимую ценность, особенно для интеллектуальных голосовых приложений», — говорится в заявлении Alibaba Cloud.
Пользователи могут использовать модель для получения помощи во время покупок в режиме реального времени, для пошагового руководства по приготовлению пищи путем анализа ингредиентов на видео или даже чтения PDF-файла на экране, чтобы облегчить утомительный поиск. Модель также может стать помощником для навигации людей с ослабленным зрением, поскольку она умеет считывать знаки, понимать контекстные подсказки и сопоставлять голоса с лицами.
Alibaba выпустила Qwen2.5-Omni-7B с открытым исходным кодом на Hugging Face и GitHub. Кроме того, модель доступна на Qwen Chat и через сообщество ModelScope. Открытый исходный код - это тип разработки программного обеспечения, при котором код и значения моделей искусственного интеллекта находятся в свободном доступе для разработчиков, которые могут их использовать, изменять и распространять. На сегодняшний день Alibaba Cloud выпустила более 200 генеративных моделей ИИ с открытым исходным кодом.
С момента выпуска модели DeepSeek-R1 с открытым исходным кодом от одноименного разработчика искусственного интеллекта китайские компании добились успехов на рынке искусственного интеллекта. Семейство моделей DeepSeek R1 представило возможности логических рассуждения, то есть способность «обдумывать» проблемы. В прошлом месяце китайский технологический гигант Tencent Holdings Ltd. выпустил модель Hunyuan Turbo S, которая, по заявлению компании, превзошла R1.
Также на прошлой неделе китайский поисковый интернет-гигант Baidu выпустил мультимодальную модель рассуждений Ernie-X1, конкурирующую с DeepSeek. В конце января Alibaba также обновила свою самую большую модель искусственного интеллекта Qwen 2.5-Max, заявив, что она превзошла по характеристикам модель DeepSeek-V3.