Alibaba анонсирует новую модель искусственного интеллекта Qwen2-VL

02.09.2024

Alibaba Cloud, подразделение облачных вычислений китайской Alibaba Group Ltd., объявило о выпуске новой модели искусственного интеллекта под названием Qwen2-VL, способной к расширенному пониманию зрительных образов и разговорным возможностям на разных языках.

По данным Alibaba, новая модель искусственного интеллекта Qwen-VL может добиться понимания высококачественных видео продолжительностью более 20 минут. Модель умеет суммировать видеоконтент, отвечать на вопросы, связанные с ним, и поддерживать непрерывный разговор в режиме реального времени, а также поддержку в чате. В результате Qwen-VL может выступать в качестве персонального помощника, используя информацию, взятую непосредственно из видеоконтента.

В качестве примера модели было предоставлено видео, которое представляло собой документальный клип о Международной космической станции, включающий сцену из центра управления полетами и кадр двух астронавтов, разговаривающих во время полета в космосе. Конечно модель пока не идеальна. Когда ее попросили подвести итоги сцены, она ответила четким выводом, включая описания говорящих людей, комнаты управления и «людей, которые выглядят как астронавты, и одетых в скафандры». На самом деле астронавты не были одеты в скафандры, они были одеты в рубашки с воротником и в брюки. На вопрос, какого цвета была одежда астронавтов, модель ответила правильно: «Два астронавта одеты в синюю и черную одежду». Один мужчина действительно был одет в синюю рубашку, а другой — в черную.

Модель способна обеспечить основу для текстового разговорного чата в реальном времени, где пользователи могут общаться с моделью, а она может отвечать на вопросы о каком-либо видео. Она также способна извлекать и получать доступ к внешним данным, таким как статусы рейсов, прогнозы погоды и отслеживание посылок. Это может сделать ее полезной для взаимодействия со службой поддержки клиентов или работниками на местах, которые могли бы показывать ей изображения продуктов, штрихкоды или другую информацию.

Alibaba заявила, что ключевым отличием Qwen2-VL от Qwen-VL является продолжение использования модели Vision Transformer, или ViT, и языковой модели Qwen2. Компания заявила, что для одновременной обработки изображений и видео, она использовала ViT с примерно 600 миллионами параметров. Также модель была усовершенствована за счет встроенной поддержки динамического разрешения, которое позволяет модели обрабатывать произвольное количество разрешений изображения, что является улучшением по сравнению с ее предшественницей.

Новая модель Qwen2-VL доступна с открытым исходным кодом в двух вариантах под лицензией Apache 2.0: Quin 2-VL-2B и Qwen2-VL-7B. Компания также выпустила демонстрационную версию модели с 7 миллиардами параметров на Hugging Face.

Alibaba отметила, что у модели есть свои ограничения, поскольку она не может извлекать из видеофайлов аудиоинформацию и предназначена только для визуального анализа. Ее обучение также обновлено только по состоянию на июнь 2023 года, и она не может гарантировать полную точность для сложных инструкций или сценариев. Тем не менее, производительность и визуальные возможности модели соответствуют самым высоким стандартам по большинству показателей, даже превосходя модели с закрытым исходным кодом, такие как флагман GPT-4o от OpenAI и Claude 3.5-Sonnet от Anthropic.

Источник: