Nvidia разрабатывает систему ИИ для программирования роботов

Рубрики: «Искусственный интеллект (AI)», «Робототехника», «Нейронные сети»

23.10.2023

Корпорация Nvidia подробно рассказала о системе искусственного интеллекта «Эврика», которая может автоматически обучать роботов выполнению новых задач.

В ходе внутренней оценки производитель чипов Nvidia использовал «Эврика», чтобы обучить 10 смоделированных роботов 29 различным действиям. Инженеры часто создают моделируемые версии своих машин, прежде чем собирать их для поддержки опытно-конструкторских работ. «Эврика» научила виртуальных роботов открывать ящики, делать трюки с вращением ручки и выполнять другие относительно сложные задачи.

Многие роботы используют тип нейронной сети, называемый моделью обучения с подкреплением (Reinforcement Learning), или RL-модель. Такие модели учатся выполнять задачу методом проб и ошибок: они многократно повторяют задачу в моделируемой среде, пока не поймут, как ее выполнить правильно. Имитируемая среда обучения включает в себя виртуального робота, который функционирует, как испытательный стенд для нейронной сети.

В таких проектах процесс обучения ИИ контролируется фрагментом кода, известным как функция вознаграждения. Во время сеанса обучения функция «награждает» RL-модель робота, когда она делает правильный вывод, и наказывает ее за ошибки. Таким образом, RL-модель направлена на поиск правильного способа управления роботом.

Написание функций вознаграждения для RL-моделей исторически было трудоемкой и высокотехнологичной задачей. Новая система «Эврика» автоматизирует этот процесс. Система может генерировать функции вознаграждения на основе инструкций на естественном языке, например, создать инструкцию «научить роботизированную руку играть в шахматы».

Чтобы превратить подсказки пользователей в функции вознаграждения «Эврика» использует модель GPT-4 от OpenAI. Помимо самих подсказок, система также принимает на входе, так называемый, код среды. Это код, описывающий моделируемого робота, обучаемого выполнению новой задачи.

По заявлению Nvidia, «Эврика» не просто генерирует функции вознаграждения, но и со временем совершенствует их. Система создает несколько версий функции вознаграждения и оценивает, насколько хорошо они работают, применяя их к моделируемому роботу. Затем «Эврика» анализирует результаты оценки, чтобы выявить возможности для улучшения. В ходе процесса система также может учитывать отзывы разработчиков. В частности, «Эврика» позволяет инженерам давать предложения о том, как улучшить функцию вознаграждения робота. Эти предложения включаются в процесс оптимизации кода.

Nvidia утверждает, что функции вознаграждения, разработанные «Эврика», превзошли написанный человеком код более чем в 80% протестированных ею действий робота. В результате 10 смоделированных роботов, разработанных в рамках проекта, более эффективно выполняли возложенные на них задачи. Исследователи Nvidia зафиксировали улучшение производительности роботов на 52%.

«За последнее десятилетие обучение с подкреплением позволило добиться впечатляющих успехов, однако многие проблемы все еще существуют, например, дизайн вознаграждений, который остается процессом проб и ошибок», — сказала Анима Анандкумар, старший директор по исследованиям искусственного интеллекта в Nvidia. «Эврика» — это первый шаг на пути к разработке новых алгоритмов, которые объединяют методы генеративного обучения и обучения с подкреплением для решения сложных задач».

Источник: