Все о Цифровых системах - новости, статьи, обзоры, аналитика. Более 1000 компаний, товаров и услуг в каталоге.
Добавить компанию

OpenAI создает CriticGPT для обнаружения ошибок генеративного ИИ

Рубрики: «Искусственный интеллект (AI)», «Генеративный искусственный интеллект», «Виртуальные помощники», «Чат боты»

Традиционно разработчики ИИ используют процесс, известный как «обучение с подкреплением на основе обратной связи с человеком» («Reinforcement Learning from Human Feedback» или RLHF), чтобы помочь людям-рецензентам оценить результаты больших языковых моделей и сделать их более точными. Тем не менее, OpenAI считает, что большие языковые модели (large language model или LLM) действительно могут помочь в этом процессе, который, по сути, включает в себя критику результатов моделей ИИ.

В исследовательской статье под названием «Критики LLM помогают выявлять ошибки LLM» исследователи OpenAI заявили, что они создали CriticGPT, чтобы помочь специалистам по ИИ в проверке кода, сгенерированного ChatGPT. Языковая модель CriticGPT была создана с использованием LLM GPT-4 и продемонстрировала обнадеживающую компетентность при анализе кода и выявлении ошибок, позволив своим коллегам-людям распознавать «галлюцинации» ИИ, которые те могут не заметить.

Исследователи OpenAI обучили CriticGPT на наборе данных образцов кода, содержащих преднамеренные ошибки, чтобы модель могла научиться распознавать и отмечать различные ошибки кодирования, которые часто проникают в программное обеспечение.

Для обучения CriticGPT разработчиков-людей попросили изменить код, написанный ChatGPT, введя ряд ошибок и предоставив образцы обратной связи, что они бы сделали, если бы ошибки были подлинными и они видели их впервые. Благодаря такому подходу CriticGPT научилась определять наиболее распространенные, а также некоторые редкие ошибки кодирования.

OpenAI протестировала CriticGPT после обучения, и результаты были впечатляющими. CriticGPT продемонстрировала большую компетентность, чем средний рецензент кода. В 63% случаев тренеры-люди предпочли его критику той, что была написана людьми. По мнению OpenAI, отчасти это произошло потому, что CriticGPT генерировал меньше бесполезных «придирок» к коду и меньше ложных срабатываний.

Тщательность CriticGPT позволила языковой модели значительно превзойти людей. Исследователи решили применить CriticGPT к обучающим наборам данных ChatGPT, которые были отмечены людьми-аннотаторами как «безупречные», то есть в них не должно было быть ни одной ошибки. Однако CriticGPT все равно выявил ошибки и дефекты в 24% этих наборов данных, что впоследствии было подтверждено людьми-рецензентами. По мнению OpenAI, это показывает, что CriticGPT способен выявлять даже самые тонкие ошибки, которые люди обычно упускают из виду даже при проведении исчерпывающей оценки.

Однако стоит отметить, что CriticGPT, как и те предположительно безупречные обучающие наборы данных, все еще имеет некоторые недостатки. Во-первых, модель была обучена с использованием относительно коротких ответов от ChatGPT, что может означать, что ей будет сложно выполнять гораздо более длительные и сложные задачи, которые представляют собой следующий эволюционный шаг для генеративного ИИ. Более того, CriticGPT по–прежнему не может выявить все ошибки, и в некоторых случаях создает ложные срабатывания или «галлюцинации», которые могут привести к тому, что люди-рецензенты допустят ошибки при маркировке данных.

Одна из проблем CriticGPT, заключается в том, что модель более эффективно выявляет неточные выходные данные, возникающие в результате ошибок в одном конкретном фрагменте кода. Но некоторые галлюцинации ИИ являются результатом ошибок, разбросанных по нескольким различным строкам кода, что значительно затрудняет CriticGPT определение источника проблемы.

Тем не менее, команда OpenAI воодушевлена ​​достигнутым прогрессом и планирует интегрировать CriticGPT в свой конвейер RLHF, что означает, что ее тренеры-люди получат собственного ассистента на основе генеративного ИИ, который поможет им анализировать результаты работы другого генеративного ИИ.

Источник: