OpenAI создает CriticGPT для обнаружения ошибок генеративного ИИ
Традиционно разработчики ИИ используют процесс, известный как «обучение с подкреплением на основе обратной связи с человеком» («Reinforcement Learning from Human Feedback» или RLHF), чтобы помочь людям-рецензентам оценить результаты больших языковых моделей и сделать их более точными. Тем не менее, OpenAI считает, что большие языковые модели (large language model или LLM) действительно могут помочь в этом процессе, который, по сути, включает в себя критику результатов моделей ИИ.
В исследовательской статье под названием «Критики LLM помогают выявлять ошибки LLM» исследователи OpenAI заявили, что они создали CriticGPT, чтобы помочь специалистам по ИИ в проверке кода, сгенерированного ChatGPT. Языковая модель CriticGPT была создана с использованием LLM GPT-4 и продемонстрировала обнадеживающую компетентность при анализе кода и выявлении ошибок, позволив своим коллегам-людям распознавать «галлюцинации» ИИ, которые те могут не заметить.
Исследователи OpenAI обучили CriticGPT на наборе данных образцов кода, содержащих преднамеренные ошибки, чтобы модель могла научиться распознавать и отмечать различные ошибки кодирования, которые часто проникают в программное обеспечение.
Для обучения CriticGPT разработчиков-людей попросили изменить код, написанный ChatGPT, введя ряд ошибок и предоставив образцы обратной связи, что они бы сделали, если бы ошибки были подлинными и они видели их впервые. Благодаря такому подходу CriticGPT научилась определять наиболее распространенные, а также некоторые редкие ошибки кодирования.
OpenAI протестировала CriticGPT после обучения, и результаты были впечатляющими. CriticGPT продемонстрировала большую компетентность, чем средний рецензент кода. В 63% случаев тренеры-люди предпочли его критику той, что была написана людьми. По мнению OpenAI, отчасти это произошло потому, что CriticGPT генерировал меньше бесполезных «придирок» к коду и меньше ложных срабатываний.
Тщательность CriticGPT позволила языковой модели значительно превзойти людей. Исследователи решили применить CriticGPT к обучающим наборам данных ChatGPT, которые были отмечены людьми-аннотаторами как «безупречные», то есть в них не должно было быть ни одной ошибки. Однако CriticGPT все равно выявил ошибки и дефекты в 24% этих наборов данных, что впоследствии было подтверждено людьми-рецензентами. По мнению OpenAI, это показывает, что CriticGPT способен выявлять даже самые тонкие ошибки, которые люди обычно упускают из виду даже при проведении исчерпывающей оценки.
Однако стоит отметить, что CriticGPT, как и те предположительно безупречные обучающие наборы данных, все еще имеет некоторые недостатки. Во-первых, модель была обучена с использованием относительно коротких ответов от ChatGPT, что может означать, что ей будет сложно выполнять гораздо более длительные и сложные задачи, которые представляют собой следующий эволюционный шаг для генеративного ИИ. Более того, CriticGPT по–прежнему не может выявить все ошибки, и в некоторых случаях создает ложные срабатывания или «галлюцинации», которые могут привести к тому, что люди-рецензенты допустят ошибки при маркировке данных.
Одна из проблем CriticGPT, заключается в том, что модель более эффективно выявляет неточные выходные данные, возникающие в результате ошибок в одном конкретном фрагменте кода. Но некоторые галлюцинации ИИ являются результатом ошибок, разбросанных по нескольким различным строкам кода, что значительно затрудняет CriticGPT определение источника проблемы.
Тем не менее, команда OpenAI воодушевлена достигнутым прогрессом и планирует интегрировать CriticGPT в свой конвейер RLHF, что означает, что ее тренеры-люди получат собственного ассистента на основе генеративного ИИ, который поможет им анализировать результаты работы другого генеративного ИИ.