Все о Цифровых системах - новости, статьи, обзоры, аналитика. Более 1000 компаний, товаров и услуг в каталоге.
Добавить компанию

Alibaba анонсирует передовую экспериментальную модель визуального мышления на основе ИИ

Рубрика: «Искусственный интеллект (AI)»

Предварительные тесты показали, что модель демонстрирует многообещающие возможности в области визуального мышления, решая проблемы путем их пошагового обдумывания, аналогично другим моделям рассуждений, таким как o1 от OpenAI и Gemini Flash от Google.

Новая модель ИИ является частью семейства моделей Qwen, и была построена на основе выпущенной ранее в этом году модели Qwen2-VL-72B, способной к расширенному анализу видео и к рассуждениям. Компания заявила, что взяла уже существующие возможности анализа и рассуждений модели VL и сделала в QVQ «значительный скачок вперед в понимании и решении сложных проблем».

«Представьте себе ИИ, который может взглянуть на сложную физическую проблему и методично рассуждать о своем пути к решению с уверенностью мастера-физика», — сказала команда Qwen о релизе. «Это видение вдохновило нас на создание QVQ».

Пользователи могут отправить в модель изображение и запрос для анализа, и модель начнет отвечать длинным пошаговым рассуждением. Сначала она прокомментирует изображение и определит субъекты, которые она может на нем видеть. Затем он начнет подробно описывать ход своих рассуждений, по сути, демонстрируя свою работу в одном кадре.

Alibaba анонсирует передовую экспериментальную модель визуального мышления на основе ИИ

Например, пользователь может загрузить в модель изображение четырех аквариумных рыбок - трех ярко-оранжевых и одной белой, а затем попросить модель посчитать их количество. Сначала модель отметит тот факт, что она видит аквариум и рыбу, затем идентифицирует каждую из рыб, их различные цвета и в итоге подсчитает их общее количество. Она может даже пересчитать рыб еще раз, изучив изображение с другой точки зрения (например, чтобы определить, есть ли какие-либо скрытые или частично загороженные рыбы).

«Давайте я попробую их сосчитать», - сказала модель в одном из своих проходов. «В центре изображена одна большая оранжевая рыба, а вокруг нее - другие. Справа изображена рыбка, немного отличающаяся по цвету, возможно, более светлого оттенка или почти розовая. Под центральной рыбкой есть еще одна оранжевая рыбка, а слева - еще одна оранжевая рыбка. Итак, насколько я могу судить, всего здесь четыре рыбки».

В общей сложности модель пересчитала рыб трижды и пришла к выводу, что каждый раз их было четыре. Чтобы избежать ошибок она даже пересчитала их, путем подсчета разных пар глаз.

В настоящее время модель производит анализ за один раз и не позволяет пользователям задавать дополнительные вопросы. Чтобы создать новый ответ об изображении, необходимо еще раз отправить новый запрос с тем же изображением.

Помимо этого, экспериментальная предварительная модель показала очень хорошие результаты по четырем наборам данных, включая следующие тесты:

  • MMMU — университетский тест мультимодального понимания;
  • MathVista — математический тест на визуальное мышление;
  • MathVision — еще один математический тест на визуальное мышление;
  • OlympiadBench — двуязычный научный тест.

сравнение моделей ИИ в разных тестах

В тесте MMMU модель QVQ-72B-Preview достигла значения 70,3, почти сравнявшись с моделью Claude 3.5 Sonnet от компании Anthropic. В остальных трех тестах модель сократила разрыв с популярными моделями с закрытым исходным кодом, такими как o1 от OpenAI.

Хотя модель способна на сложные рассуждения, она все еще экспериментальная и находится в стадии предварительного просмотра, поэтому у нее есть ограничения. Например, она может смешивать или переключать языки при ответе на запросы анализа. У нее также есть проблемы с рекурсивными ответами, особенно потому, что она имеет тенденцию углубляться в рассуждения. Компания также заявила, что перед запуском для широкой аудитории модель должна быть оснащена более строгими мерами безопасности.

Модель QvQ-72B-Preview была выпущен под лицензией Qwen с открытым исходным кодом на GitHub и Hugging Face. Это позволит разработчикам и исследователям настраивать и дорабатывать модель для своих собственных целей.

Источник: