Модель «Gemini 2.5 Computer Use» от Google выполняет навигацию по Интернету так же, как человек

Модель под названием «Gemini 2.5 Computer Use» использует сочетание визуального восприятия и рассуждений для анализа запросов пользователя и выполнения задач в браузере. Она выполняет все необходимые для этого действия, такие как нажатие клавиш, ввод текста, прокрутка, управление выпадающими меню, а также заполнение и отправка форм, как это делает человек.
В сообщении исследовательской группы Google DeepMind говорится, что Gemini 2.5 Computer Use основана на большой языковой модели Gemini 2.5 Pro. Более ранние версии модели использовались для реализации более ранних функций агентов, реализованных в таких инструментах, как AI Mode и Project Mariner. Однако полная модель представлена впервые.
Компания пояснила, что каждый запрос запускает «цикл», в котором модель проходит различные этапы до тех пор, пока он не будет признан завершённым. Сначала пользователь отправляет модели запрос, который также может включать скриншоты соответствующего веб-сайта и историю недавних действий. Затем Gemini 2.5 Computer Use анализирует эти данные и генерирует ответ, который обычно является «вызовом функции, представляющий одно из действий пользовательского интерфейса, например, щелчок мышью или ввод текста». Затем клиентский код выполнит требуемое действие, после чего новый снимок экрана графического интерфейса пользователя и текущего веб-сайта будет отправлен обратно в модель в качестве функционального ответа.
Компания Google опубликовала несколько демонстрационных видеороликов, показывающих работу инструмента «Gemini 2.5 Computer Use», отметив, что они ускорены в три раза. Первое видео основано на следующем запросе:
«На сайте https://tinyurl.com/pet-care-signup вы можете получить всю информацию о любом питомце, проживающем в Калифорнии, и добавить его в качестве гостя в CRM-систему моего спа-салона по адресу https://pet-luxe-spa.web.app/. Затем запишитесь на повторный приём к специалисту Аниме Лавар 10 октября в любое время после 8:00. Причина визита та же, что и для запрошенного лечения».

Исследователи DeepMind также утверждают, что их усилия по адаптации Gemini 2.5 Computer Use к работе в веб-браузерах окупились с точки зрения производительности. Они сообщили, что Gemini 2.5 Computer Use «превосходит ведущие альтернативы в нескольких веб- и мобильных бенчмарках», включая Online-Mind2Web и WebVoyager. Модель в первую очередь оптимизирована для веб-браузеров, поэтому работает в них лучше. Однако, даже несмотря на это, Gemini 2.5 Computer Use превзошла своих конкурентов в бенчмарке AndroidWorld, который, по словам исследователей, демонстрирует «большие перспективы для задач управления мобильным пользовательским интерфейсом». Кроме того, они утверждают, что Gemini 2.5 Computer Use превосходит все остальные модели с точки зрения управления браузером при минимальной задержке.


