Google представляет две новые модели искусственного интеллекта для роботов
Новые алгоритмы основаны на серии больших языковых моделей Google Gemini 2.0. Они могут обрабатывать не только текст, но и мультимодальные данные, такие как видео. Эта возможность позволяет моделям Gemini Robotics и Gemini Robotics-ER анализировать кадры с встроенных видеокамер робота, что улучшает качество принятия решений.
Gemini Robotics описывается как модель типа «зрение-язык-действие». По данным Google, роботы, оснащенные этой моделью, могут выполнять сложные задачи на основе инструкций естественного языка. Например, пользователь может попросить искусственный интеллект сложить бумагу в форме оригами или положить предметы в зип-пакет.
Исторически сложилось так, что обучение промышленного робота выполнению новой задачи требовало ручного программирования. Для выполнения этой задачи требуются специальные навыки и значительное количество времени. Чтобы упростить процесс настройки робота, исследователи Google разработали Gemini Robotics с учетом универсальности. Компания утверждает, что искусственный интеллект может выполнять задачи, которым его ранее не учили, что уменьшает необходимость ручного программирования.
Чтобы проверить, насколько хорошо модель Gemini Robotics справляется с новыми задачами, Google оценила ее с помощью теста обобщения искусственного интеллекта. Компания пришла к выводу, что алгоритм более чем в два раза повышает производительность более ранних моделей «зрение-язык-действие». По данным Google, Gemini Robotics может не только выполнять задачи, которым ее не учили, но и изменять способ их выполнения при изменении внешних условий.
«Если объект выскальзывает из рук робота или кто-то перемещает предмет, Gemini Robotics быстро перестраивается и продолжает работу — важнейшая способность для роботов в реальном мире, где неожиданности являются нормой», —рассказала в своем блоге Каролина Парада, руководитель отдела робототехники в Google DeepMind.
Вторая модель искусственного интеллекта Robotics-ER ориентирована на пространственное мышление. Этот термин обозначает сложную последовательность вычислений, которые робот должен выполнить, прежде чем сможет исполнить задание. Например, чтобы поднять кружку с кофе, требуется, чтобы роботизированная рука нашла ручку и вычислила угол, под которым к ней следует приблизиться.
После разработки плана исполнения задания Gemini Robotics-ER использует возможности программирования Gemini 2.0 для преобразования плана в сценарий настройки. Этот сценарий программирует робота. Если задача окажется слишком сложной, разработчики могут обучить модель наилучшему варианту действий с помощью «нескольких демонстраций выполнения задания человеком».
«Gemini Robotics-ER может выполнять все шаги, необходимые для управления роботом прямо из коробки, включая восприятие, оценку состояния, пространственное понимание, планирование и генерацию кода», — написала Парада. «В такой сквозной настройке модель достигает 2-3-кратного показателя успешности по сравнению с Gemini 2.0».
Google сделает модель Gemini Robotics-ER доступной для нескольких партнеров, включая стартап по производству человекоподобных роботов Apptronik, который в прошлом месяце привлек 350 млн долларов. Поисковый гигант также присоединился к финансированию стартапа в качестве инвестора. Google будет сотрудничать с Apptronik для разработки человекоподобных роботов, оснащенных Gemini 2.0.