OpenAI борется с ошибками ИИ с помощью новых методов обучения

Рубрики: «Искусственный интеллект (AI)», «Чат боты»

02.06.2023

Компания OpenAI проводит исследования по борьбе с критическими ошибками или, так называемыми, «галлюцинациями» искусственного интеллекта с использованием новых методов обучения.

С момента недавнего представления продвинутой модели GPT-4 в марте этого года, генеративные языковые модели ИИ были интегрированы во множество программных приложений, включая поисковую систему Bing корпорации Microsoft. Чат-боты способны на удивительные вещи, такие как ответы на вопросы, помощь в исследованиях, написание стихов и даже компьютерных кодов. Однако оказалось, что иногда они могут совершать серьезные ошибки, например, полностью выдумывать вещи и тут же представлять их как факты.

«В последние годы большие языковые модели значительно улучшили свою способность выполнять сложные многоуровневые рассуждения», — заявили исследователи OpenAI. «Однако даже самые современные модели по-прежнему допускают логические ошибки, часто называемые галлюцинациями».

Эти проблемы преследовали чат-ботов с искусственным интеллектом с самого начала. Например, чат-бот Bard от Google во время своей публичной демонстрации допустил фактическую ошибку в отношении телескопа Джеймса Уэбба, сообщив, что он использовался для получения самых первых снимков планеты за пределами Солнечной системы. Это неверно, так как первые снимки экзопланеты были сделаны телескопом Very Large Telescope (VLT) Европейской южной обсерватории в 2004 году. Также можно привести пример, как юрист, использующий ChatGPT, может столкнуться с санкциями после того, как искусственный интеллект выдаст ему ссылки на несуществующие судебные дела.

Чтобы решить эту проблему, исследователи Open AI намерены обнаруживать «галлюцинации» путем обучения модели искусственного интеллекта, вознаграждая ее за желаемые результаты и препятствуя нежелательным результатам. Они намерены делать это не только для выдаваемого ИИ окончательного вывода, а для каждого шага процесса рассуждения. Это отличает, так называемый, «контроль процесса» от «контроля результатов». Цель состоит в том, чтобы выстроить прозрачную «цепочку размышлений» с обратной связью по каждому шагу, которая основывается на каждом этапе работы и, таким образом, приводит к лучшему результату.

Исследователи также утверждают, что углубление в сам процесс имеет множество преимуществ по сравнению с простым вознаграждением модели за результат, поскольку это позволяет создать более «согласованную» модель искусственного интеллекта. С моделью вознаграждения за результат, ИИ мог бы прийти к правильному ответу, но все равно иметь неправильную логическую цепочку для получения ответа, что могло бы привести к большему количеству ошибок в других процессах.

Чтобы доказать свою точку зрения, исследователи Open AI сравнили два различных метода модели обучения с вознаграждением, используя набор данных для решения математических задач. Они создали модели вознаграждения с контролем процесса и результатов, сгенерировали решения для каждой проблемы и выбрали решения, получившие наивысшие оценки. В конечном итоге, команда заявила, что система вознаграждения, контролируемая процессом, работает лучше по всем направлениям. Однако недостатком этого метода обучения моделей является то, что он может привести к снижению производительности обучающих систем ИИ. Это, в свою очередь, может препятствовать их внедрению, так как обучение моделей будет медленнее, чем у конкурентов, но также сделает их намного более безопасными в использовании.

Источник: