OpenAI представляет новую модель рассуждений o3

Рубрики: «Искусственный интеллект (AI)», «Генеративный AI (Gen AI)»

23.12.2024

Компания OpenAI представила подробную информацию о своей новой флагманской большой языковой модели o3, предназначенной для задач логического мышления.

Компания опубликовала результаты серии бенчмарков, которые оценивали, насколько хорошо o3 выполняет различные задачи по рассуждению. По сравнению с более ранними большими языковыми моделями (LLM), новая модель продемонстрировала значительные улучшения по всем направлениям.

Возможно, наиболее заметным из тестов, которые использовала компания OpenAI, является ARC-AGI-1. Он проверяет, насколько хорошо нейронная сеть выполняет задачи, для выполнения которых она специально не обучалась. Такая универсальность рассматривается как ключевое условие для создания общего искусственного интеллекта, или AGI (Artificial General Intelligence). AGI - это тип искусственного интеллекта, который соответствует или превосходит когнитивные способности человека в широком спектре когнитивных задач.

Используя относительно ограниченный объем вычислительной мощности, модель o3 набрала в тесте 75,7% правильных ответов. Этот показатель вырос до 87,5%, когда модель получила доступ к большей инфраструктуре. При этом большая языковая модель GPT-3, которая использовалась в оригинальной версии ChatGPT, набрала 0%, а модель GPT-4o, выпущенная ранее в этом году, набрала лишь 5%.

«Прохождение теста ARC-AGI еще не означает достижения общего искусственного интеллекта, или, другими словами, я не думаю, что o3 — это AGI», — написал в своем блоге Франсуа Шолле, разработчик бенчмарка. «Вы поймете, что AGI уже здесь, когда станет невозможно создать такие задачи, которые были бы просты для обычных людей, но сложны для искусственного интеллекта».

Помимо этого, модель o3 достигла рекордных результатов в тесте Frontier Math - одном из самых сложных тестов оценки искусственного интеллекта. Он включает в себя несколько сотен сложных математических задач, которые были созданы при участии более 60 математиков. OpenAI утверждает, что o3 решила в тесте 25,2% задач, легко превзойдя предыдущий результат ИИ, который составлял всего около 2%.

Программирование — еще один вариант использования больших языковых моделей. Согласно OpenAI, o3 на 22,8% превзошла модель предыдущего поколения o1 на бенчмарке SWE-Bench Verified. Тест включает в себя вопросы, в которых моделям ИИ предлагается найти и исправить ошибку в хранилище кода на основе описания проблемы на естественном языке.

В настоящее время o3 доступна в двух вариантах: полнофункциональная версия, называемая просто o3, и o3-mini. Последний релиз является облегченной версией, которая жертвует некоторым качеством вывода ради более быстрого времени отклика и более низких затрат на вывод. Модель o1 предыдущего поколения также доступна в таком уменьшенном варианте.

На первом этапе OpenAI делает доступной модель o3 только для ограниченного числа исследователей кибербезопасности искусственного интеллекта. Их отзывы помогут компании улучшить безопасность модели, прежде чем она станет доступной для большого круга пользователей.

Также компания OpenAI сообщила, что построила модель o3, используя новую технику для предотвращения вредносного вывода. Метод под названием «осмысленное выравнивание» позволяет исследователям снабжать модели ИИ набором инструкций по безопасности. Он работает путем встраивания этих инструкций в набор обучающих данных, с помощью которых разрабатывается большая языковая модель.

Источник: