Исследование Microsoft показывает, что модели ИИ по-прежнему испытывают трудности с отладкой ПО
Модели искусственного интеллекта от таких компаний как OpenAI, Anthropic и других ведущих лабораторий ИИ все чаще используются для помощи в задачах программирования. В частности, генеральный директор Google Сундар Пичаи заявил в октябре, что 25% нового программного кода в компании генерируется искусственным интеллектом.
Однако новое исследование Microsoft Research, научно-исследовательского подразделения компании Microsoft, показывает, что модели искусственного интеллекта, включая Claude 3.7 Sonnet от Anthropic и o3-mini от OpenAI, не в состоянии отладить множество проблем в тесте разработки программного обеспечения под названием «SWE-bench Lite». Результаты являются отрезвляющим напоминанием о том, что, несмотря на смелые прогнозные заявления, искусственный интеллект по-прежнему не может сравниться с экспертами-людьми в таких областях, как написание программного кода.
Соавторы исследования протестировали девять различных моделей в качестве основы для агента искусственного интеллекта, который имел доступ к ряду инструментов отладки, включая отладчик Python. Они поручили этому агенту решить специально разработанный набор из 300 задач по отладке программного обеспечения из теста SWE-bench Lite.
Как выяснилось, даже при использовании более мощных и современных моделей, агент ИИ редко успешно выполнял более половины задач отладки. Claude 3.7 Sonnet имел самый высокий средний показатель успеха (48,4%), за ним следовали o1 (30,2%) и o3-mini (22,1%) от OpenAI.
Некоторые модели испытывали трудности с использованием доступных им инструментов отладки и пониманием того, как разные инструменты могут помочь в решении различных проблем. Однако, по словам соавторов, большей проблемой была нехватка данных. Они полагают, что в обучении текущих моделей недостаточно данных, представляющих «последовательные процессы принятия решений» — то есть следы отладки человеком.
«Мы твердо верим, что обучение или тонкая настройка моделей могут сделать их лучшими интерактивными отладчиками», - пишут соавторы в своем исследовании. «Однако для выполнения такого обучения модели потребуются специализированные данные. Например, прежде чем модель сможет предложить исправить ошибку ей необходимы данные о траектории, которые фиксируют взаимодействие агентов с отладчиком для сбора необходимой информации».
Многие исследования показали, что генерирующий программы искусственный интеллект имеет тенденцию вносить в код уязвимости безопасности и другие ошибки. Это происходит из-за слабостей искусственного интеллекта в таких областях, как способность понимать логику программирования. Одна из недавних оценок Devin (популярного инструмента кодирования на основе ИИ) показала, что он может выполнить только 3 из 20 тестов по программированию.
Все большее число технологических лидеров оспаривают идею о том, что искусственный интеллект автоматизирует работу по написанию кода. Так, например, соучредитель Microsoft Билл Гейтс заявил, что, по его мнению, программирование как профессия никуда не денется. Такого же мнения придерживаются генеральный директор Replit Амджад Масад, генеральный директор Okta Тодд Маккиннон и генеральный директор IBM Арвинд Кришна.