Модель o3 от OpenAI показала в тесте более низкие результаты, чем изначально предполагала компания

Рубрики: «Искусственный интеллект (AI)», «Генеративный AI (Gen AI)»

21.04.2025

Расхождение между результатами собственных и сторонних тестов для модели искусственного интеллекта o3 компании OpenAI поднимает вопросы относительно прозрачности компании и ее практики тестирования моделей.

Модель искусственного интеллекта o3 была представлена компанией OpenAI в декабре прошлого года. Тогда компания заявила, что модель может ответить чуть более чем на четверть вопросов в тесте FrontierMath, представляющем собой сложный набор математических задач. Этот результат сразил конкурентов — следующая лучшая модель смогла правильно ответить только примерно на 2% задач FrontierMath.

«Сегодня все решения имеют менее 2% в тесте FrontierMath», — сказал тогда Марк Чен, главный научный сотрудник OpenAI. «Мы видим, что с o3 в агрессивных тестовых вычислительных настройках мы можем получить более 25% правильных ответов».

Как оказалось, указанная цифра, скорее всего, была верхней границей, которую смогла достичь версия модели o3.

В пятницу научно-исследовательский институт Epoch AI опубликовал результаты своих независимых бенчмарк-тестов модели o3. Было обнаружено, что o3 набрала всего около 10% правильных ответов, что значительно ниже наивысших значений, заявленных OpenAI.

Это не означает, однако, что OpenAI солгала по сути. Результаты бенчмарка, опубликованные компанией в декабре, показали нижнюю границу оценки, которая совпадает с оценкой, полученной Epoch. Исследователи Epoch также отметили, что тестовая установка в их лаборатории, вероятно, отличается от той, что была у OpenAI, и что они использовали для своих оценок обновленную версию бенчмарка FrontierMath.

«Разница между нашими результатами и результатами OpenAI может быть связана с тем, что OpenAI оценивает результаты с помощью более мощной внутренней базы данных, используя больше времени на тестирование [вычислений], или с тем, что эти результаты были получены на другом подмножестве FrontierMath (180 задач в frontiermath-2024-11-26 против 290 задач в frontiermath-2025-02-28-private)», — сообщили исследователи Epoch AI.

Согласно сообщению некоммерческой организации ARC Prize Foundation, которая тестировала предварительную версию o3, «публичная модель o3 является другой моделью, настроенной для использования в чате/продукте», что подтверждает отчет Epoch AI.

«Все выпущенные (публичные) вычислительные уровни o3 меньше версии, которую мы тестировали», — написали исследователи ARC Prize. «В целом можно ожидать, что более крупные вычислительные уровни покажут лучшие результаты тестов».

Конечно, тот факт, что публичный релиз o3 не соответствует обещаниям OpenAI, полученным в ходе тестирования, является несколько спорным вопросом, поскольку модели o3-mini-high и o4-mini компании превосходят o3 на FrontierMath, а OpenAI планирует в ближайшие недели представить более мощную версию o3, под названием o3-pro. Однако это еще одно напоминание о том, что результаты тестов ИИ не стоит принимать за чистую монету, особенно если источником является компания, предлагающая свои услуги для продажи.

Источник: