Google представляет две новые модели искусственного интеллекта для роботов

Рубрики: «Робототехника», «Компьютерное зрение (CV)», «Генеративный AI (Gen AI)»

13.03.2025

Компания Google представила две новые модели искусственного интеллекта: Gemini Robotics и Gemini Robotics-ER, которые оптимизированы для работы автономных машин.

Новые алгоритмы основаны на серии больших языковых моделей Google Gemini 2.0. Они могут обрабатывать не только текст, но и мультимодальные данные, такие как видео. Эта возможность позволяет моделям Gemini Robotics и Gemini Robotics-ER анализировать кадры с встроенных видеокамер робота, что улучшает качество принятия решений.

Gemini Robotics описывается как модель типа «зрение-язык-действие». По данным Google, роботы, оснащенные этой моделью, могут выполнять сложные задачи на основе инструкций естественного языка. Например, пользователь может попросить искусственный интеллект сложить бумагу в форме оригами или положить предметы в зип-пакет.

Исторически сложилось так, что обучение промышленного робота выполнению новой задачи требовало ручного программирования. Для выполнения этой задачи требуются специальные навыки и значительное количество времени. Чтобы упростить процесс настройки робота, исследователи Google разработали Gemini Robotics с учетом универсальности. Компания утверждает, что искусственный интеллект может выполнять задачи, которым его ранее не учили, что уменьшает необходимость ручного программирования.

Чтобы проверить, насколько хорошо модель Gemini Robotics справляется с новыми задачами, Google оценила ее с помощью теста обобщения искусственного интеллекта. Компания пришла к выводу, что алгоритм более чем в два раза повышает производительность более ранних моделей «зрение-язык-действие». По данным Google, Gemini Robotics может не только выполнять задачи, которым ее не учили, но и изменять способ их выполнения при изменении внешних условий.

«Если объект выскальзывает из рук робота или кто-то перемещает предмет, Gemini Robotics быстро перестраивается и продолжает работу — важнейшая способность для роботов в реальном мире, где неожиданности являются нормой», —рассказала в своем блоге Каролина Парада, руководитель отдела робототехники в Google DeepMind.

Вторая модель искусственного интеллекта Robotics-ER ориентирована на пространственное мышление. Этот термин обозначает сложную последовательность вычислений, которые робот должен выполнить, прежде чем сможет исполнить задание. Например, чтобы поднять кружку с кофе, требуется, чтобы роботизированная рука нашла ручку и вычислила угол, под которым к ней следует приблизиться.

После разработки плана исполнения задания Gemini Robotics-ER использует возможности программирования Gemini 2.0 для преобразования плана в сценарий настройки. Этот сценарий программирует робота. Если задача окажется слишком сложной, разработчики могут обучить модель наилучшему варианту действий с помощью «нескольких демонстраций выполнения задания человеком».

«Gemini Robotics-ER может выполнять все шаги, необходимые для управления роботом прямо из коробки, включая восприятие, оценку состояния, пространственное понимание, планирование и генерацию кода», — написала Парада. «В такой сквозной настройке модель достигает 2-3-кратного показателя успешности по сравнению с Gemini 2.0».

Google сделает модель Gemini Robotics-ER доступной для нескольких партнеров, включая стартап по производству человекоподобных роботов Apptronik, который в прошлом месяце привлек 350 млн долларов. Поисковый гигант также присоединился к финансированию стартапа в качестве инвестора. Google будет сотрудничать с Apptronik для разработки человекоподобных роботов, оснащенных Gemini 2.0.

Источник: