Alibaba выпускает модели ИИ Qwen2.5-VL, которые могут управлять ПК и телефонами
Новые модели могут анализировать файлы, понимать видео и подсчитывать объекты на изображениях, а также управлять ПК — аналогично модели, на которой работает недавно запущенный агент искусственного интеллекта Operator от OpenAI.
Согласно результатам сравнительного анализа команды Qwen, лучшая модель Qwen2.5-VL превосходит GPT-4o от OpenAI, Claude 3.5 Sonnet от Anthropic и Gemini 2.0 Flash от Google по ряду показателей понимания видео, математики, анализа документов и ответов на вопросы.
Модель Qwen2.5-VL, которая доступна для тестирования в приложении Qwen Chat от Alibaba и для загрузки с платформы разработки ИИ Hugging Face, может анализировать диаграммы и графики, извлекать данные из сканов счетов-фактур и форм и «понимать» многочасовые видеоролики.
Команда Qwen также сообщила, что Qwen2.5-VL может распознавать «интеллектуальную собственность из фильмов и сериалов, а также из широкого спектра продуктов», — намекая на тот факт, что модели могли быть частично обучены на работах, защищенных авторским правом.
Стоит отметить, что модель Qwen2.5-VL, будучи искусственным интеллектом, разработанным китайской компанией, имеет определенные ограничения на темы, которые она может обсуждать — по крайней мере, в Qwen Chat. Интернет регулятор Китая считает, что разработанные в стране модели ИИ должны гарантировать, чтобы их ответы «воплощали основные социалистические ценности». Многие китайские системы искусственного интеллекта отказываются реагировать на темы, которые могут вызвать гнев регулятора (например, такие как автономия Тайваня).
Одной из наиболее интересных особенностей Qwen2.5-VL является способность модели взаимодействовать с программным обеспечением — как на ПК, так и на мобильных устройствах. Видео, опубликованное Филиппом Шмидом, техническим руководителем Hugging Face, показало, как Qwen2.5-VL запускает приложение Booking.com для Android и бронирует рейс из Чунцина в Пекин.
«Не пропустите Qwen 2.5 VL от Alibaba! Несмотря на всю шумиху вокруг Deepseek, команда Qwen только что выпустила лучший открытый мультимодальный продукт Qwen 2.5 VL — это модель языка Vision, которая может управлять вашим компьютером, подобно агенту Operator от OpenAI, извлекать структурированную информацию из диаграмм и многое другое!!», - написал в своем блоге Шмид.
В другом видео модель Qwen2.5-VL управляет приложениями на рабочем столе Linux — но, похоже, не делает ничего, кроме переключения вкладок. Возможно, показательно, что Qwen2.5-VL пока набирает плохие баллы на бенчмарке OSWorld, который имитирует реальную компьютерную среду.
Две меньшие по размеру и менее сложные модели серии Qwen2.5-VL, Qwen2.5-VL-3B и Qwen2.5-VL7B, доступны по специальной лицензии. Однако флагманская модель Qwen2.5-VL-72B находится под пользовательской лицензией Alibaba, которая требует, чтобы компании и разработчики с более чем 100 миллионами активных пользователей в месяц запрашивали разрешение у Qwen/Alibaba перед коммерческим внедрением модели.