Google представила языковую модель ИИ для взаимодействия с роботами

Рубрики: «Искусственный интеллект (AI)», «Робототехника», «Манипуляционные роботы»

31.07.2023

Компания Google представила новую модель искусственного интеллекта, которая позволит людям разговаривать с роботами и говорить им, что делать, превращая слова в действия.

Новая модель, получившая название Robotics Transformer 2 или RT-2, способна на словах и изображениях учиться восприятию идей и концепций, чтобы затем переводить их в действия, в такие как, сбор предметов или запуск других действий. В своем блоге Google представила новую модель, заявив, что компания стремится сделать роботов более полезными.

«Погоня за полезными роботами всегда была титаническим трудом, потому что робот, способный выполнять общие задачи, должен уметь справляться со сложными, абстрактными задачами в сильно изменяющихся средах — особенно с такими, которых он никогда раньше не видел», - сказал Винсент Ванхук, выдающийся ученый и глава отдела робототехники Google DeepMind.

Новая система RT-2, обучающая роботов слушать слова и преобразовывать их в действия, является частью того, что Ванхук называет новым типом системы искусственного интеллекта. Это так называемая модель «видение-язык-действие». Она способна обучаться как на основе визуальных веб-данных, так и на основе данных робототехники, и может превращать эти данные в инструкции для управления робототехникой. Она также может обеспечить цепочку рассуждений, основанную на инструкциях для выполнения ряда задач, например, попросить робота взять предмет и положить его куда-нибудь — скажем, выбросить мусор в мусорное ведро — или выбрать какой-нибудь перекус для того, кто устал, например, энергетический напиток.

В отличие от больших языковых моделей, типа ChatGPT от OpenAI LP или Bard от Google, новая языковая модель VLM (vision-language-model) для выполнения задачи должна иметь возможность объединять семантическое значение текста и визуальные данные в согласованный и сложный набор понятий. Это создает для инженеров-робототехников совершенно новый набор задач в сочетании с последующей необходимостью постановки перед роботом целей, чтобы он мог обобщать потребности на основе запроса.

В примере «Пожалуйста, соберите мусор и выбросьте его» робот уже имеет представление о том, что такое мусор на основе информации из большого массива обучающих данных. Он сможет увидеть его в своем поле зрения, а также на основе своих знаний сможет идентифицировать мусорное ведро. С этого момента, действие по сбору мусора и его выбрасыванию будет простой механической задачей визуального отслеживания, захвата и бросания в мусорное ведро.

Предыдущие модели искусственного интеллекта необходимо было заранее обучить пониманию каждой из этих концепций, чтобы перейти к многоэтапной логике: сначала идентифицировать мусор, затем мусорное ведро, а затем выполнить выброс мусора в ведро. С моделью RT-2 больше нет необходимости в явном обучении задаче идентификации и удаления мусора.

Все может быть еще более сложно, поскольку, что такое мусор? Это может быть скомканная бумага, выброшенные обертки или оторванные клочки ткани. Искусственному интеллекту не нужно специально указывать, чтобы он определял эти вещи. Он может вывести их из своего набора данных.

«До сих пор роботы работали на сложных стеках систем, где высокоуровневые системы рассуждений и низкоуровневые системы управления играли в испорченный телефон», — сказал Ванхоук. «Представьте, что вы думаете о том, что хотите сделать, а затем должны сообщить об этих действиях телу, чтобы заставить его двигаться. RT-2 устраняет эту сложность и позволяет одной модели не только выполнять сложные рассуждения, наблюдаемые в базовых моделях, но и руководить действиями робота».

Источник: