Все о Цифровых системах - новости, статьи, обзоры, аналитика. Более 1000 компаний, товаров и услуг в каталоге.
Добавить компанию

Google представляет две новые модели искусственного интеллекта для роботов

Рубрики: «Робототехника», «Компьютерное зрение (CV)», «Генеративный искусственный интеллект»

Google представляет две новые модели искусственного интеллекта для роботов

Новые алгоритмы основаны на серии больших языковых моделей Google Gemini 2.0. Они могут обрабатывать не только текст, но и мультимодальные данные, такие как видео. Эта возможность позволяет моделям Gemini Robotics и Gemini Robotics-ER анализировать кадры с встроенных видеокамер робота, что улучшает качество принятия решений.

Gemini Robotics описывается как модель типа «зрение-язык-действие». По данным Google, роботы, оснащенные этой моделью, могут выполнять сложные задачи на основе инструкций естественного языка. Например, пользователь может попросить искусственный интеллект сложить бумагу в форме оригами или положить предметы в зип-пакет.

Исторически сложилось так, что обучение промышленного робота выполнению новой задачи требовало ручного программирования. Для выполнения этой задачи требуются специальные навыки и значительное количество времени. Чтобы упростить процесс настройки робота, исследователи Google разработали Gemini Robotics с учетом универсальности. Компания утверждает, что искусственный интеллект может выполнять задачи, которым его ранее не учили, что уменьшает необходимость ручного программирования.

Чтобы проверить, насколько хорошо модель Gemini Robotics справляется с новыми задачами, Google оценила ее с помощью теста обобщения искусственного интеллекта. Компания пришла к выводу, что алгоритм более чем в два раза повышает производительность более ранних моделей «зрение-язык-действие». По данным Google, Gemini Robotics может не только выполнять задачи, которым ее не учили, но и изменять способ их выполнения при изменении внешних условий.

«Если объект выскальзывает из рук робота или кто-то перемещает предмет, Gemini Robotics быстро перестраивается и продолжает работу — важнейшая способность для роботов в реальном мире, где неожиданности являются нормой», —рассказала в своем блоге Каролина Парада, руководитель отдела робототехники в Google DeepMind.

Вторая модель искусственного интеллекта Robotics-ER ориентирована на пространственное мышление. Этот термин обозначает сложную последовательность вычислений, которые робот должен выполнить, прежде чем сможет исполнить задание. Например, чтобы поднять кружку с кофе, требуется, чтобы роботизированная рука нашла ручку и вычислила угол, под которым к ней следует приблизиться.

После разработки плана исполнения задания Gemini Robotics-ER использует возможности программирования Gemini 2.0 для преобразования плана в сценарий настройки. Этот сценарий программирует робота. Если задача окажется слишком сложной, разработчики могут обучить модель наилучшему варианту действий с помощью «нескольких демонстраций выполнения задания человеком».

«Gemini Robotics-ER может выполнять все шаги, необходимые для управления роботом прямо из коробки, включая восприятие, оценку состояния, пространственное понимание, планирование и генерацию кода», — написала Парада. «В такой сквозной настройке модель достигает 2-3-кратного показателя успешности по сравнению с Gemini 2.0».

Google сделает модель Gemini Robotics-ER доступной для нескольких партнеров, включая стартап по производству человекоподобных роботов Apptronik, который в прошлом месяце привлек 350 млн долларов. Поисковый гигант также присоединился к финансированию стартапа в качестве инвестора. Google будет сотрудничать с Apptronik для разработки человекоподобных роботов, оснащенных Gemini 2.0.

Источник: