OpenAI запускает новые языковые модели рассуждений o3 и o4-mini

Рубрики: «Искусственный интеллект (AI)», «Генеративный AI (Gen AI)»

17.04.2025

Компания OpenAI представила o3 и o4-mini — новейшие дополнения к своей линейке оптимизированных для рассуждений языковых моделей искусственного интеллекта.

Первый алгоритм OpenAI под названием o3 описывается как самая продвинутая модель рассуждений из представленных на сегодняшний день. Другой, o4-mini, жертвует некоторым качеством вывода ради более высокой производительности и более низкой цены. Обе новые модели описываются как более экономичные в «большинстве реальных» задач по сравнению с прежними языковыми моделями.

OpenAI сообщила, что модель o3 установила новые рекорды в нескольких популярных тестах производительности искусственного интеллекта. Один из них — SWE-bench, который оценивает возможности написания моделями программного кода, предлагая им исправить ошибки в проектах с открытым исходным кодом. Еще один тест, в котором o3 продемонстрировала лучшую производительность, называется MMMLU. Он включает вопросы уровня колледжа, охватывающие такие темы, как наука и бизнес.

Одним из факторов, влияющих на качество выходных данных модели, является лучшее использование ею инструментов. Это процесс, при котором языковая модель использует внешнюю систему, например, редактор кода или поисковую систему, для выполнения задач, которые она не может выполнить самостоятельно. OpenAI утверждает, что o3 может анализировать и генерировать изображения, запускать код Python, выполнять поиск в Интернете и взаимодействовать с пользовательскими инструментами, подключенными через интерфейс прикладного программирования.

«По оценкам внешних экспертов, при выполнении сложных реальных задач o3 допускает на 20 процентов меньше серьезных ошибок, чем o1», — сообщили сотрудники OpenAI.

Вторая алгоритм, представленный компанией OpenAI, это модель o4-mini, разделяет многие функции использования инструментов модели o3. Разница в том, что она меньше по размеру, то есть поддерживает более узкий набор задач, но может выполнять их быстрее и более экономично. OpenAI утверждает, что эта экономичность позволит o4-mini предоставлять значительно более высокие лимиты использования, чем o3.

Внутренние тесты компании показывают, что o4-mini особенно полезна для задач, включающих математику, программирование и графический ввод. Без использования инструментов o4-mini может превзойти более продвинутую модель o3 на тестах AIME 2024 и AIME 2025 - двух квалификационных экзаменах по математической олимпиаде США.

«В экспертных оценках o4-mini также превосходит своего предшественника o3-mini в задачах, не связанных с подходом STEM, а также в таких областях, как наука о данных», — пояснили сотрудники OpenAI.

Компания запустила две новые модели вместе с проектом с открытым исходным кодом, названным Codex CLI. Это агент ИИ, оптимизированный для задач кодирования, который разработчики могут запускать на своих настольных компьютерах через приложение «терминал».

Источник: