OpenAI делает доступной для некоторых разработчиков полную версию модели рассуждений o1

Рубрики: «Информационная безопасность», «Голосовые помощники»

19.12.2024

Компания OpenAI объявила, что делает полную версию своей модели рассуждений o1 доступной для своих самых преданных клиентов-разработчиков.

Объявление появилось на девятый день праздничной пресс-конференции, известной как «12 дней OpenAI», где компания заявила, что предоставляет доступ к полной модели o1 разработчикам категории пятого уровня - «Tier 5». Это разработчики, имеющие аккаунт OpenAI не менее одного месяца, и которые ежемесячно тратят не менее 1000 долларов на услуги компании. До этого анонса разработчики могли получить доступ только к менее мощной модели o1-preview.

Помимо ограничений на использование, полная версия модели рассуждений o1 очень дорогая из-за огромных вычислительных ресурсов, необходимых для ее работы. По данным компании, она будет стоить 15 долларов за каждые 750 000 проанализированных слов и 60 долларов за каждые 750 000 сгенерированных слов. Это делает модель почти в четыре раза дороже более широко используемой модели GPT-4o.

Те, кто готов заплатить более высокую цену, получат некоторые новые возможности, поскольку компания OpenAI внесла в модель ряд улучшений. Во-первых, полная версия o1 более настраиваемая, по сравнению с предварительной версией. Есть новый параметр «reasoning_effort», который определяет то, как долго модель будет обдумывать конкретный вопрос.

Модель o1 также поддерживает вызов функций. Это означает, что она может быть подключена к внешним источникам данных, а также к сообщениям разработчика и анализу изображений, которые не поддерживались моделью o1-preview. Также в o1 была уменьшена задержка ответов, поскольку модель использует в среднем на 60% меньше токенов рассуждений.

Помимо прочего, OpenAI заявила, что включает модели GPT-4o и 4o-mini в свой интерфейс программирования приложений Realtime, который предназначен для голосовых приложений искусственного интеллекта с низкой задержкой, таких как Advanced Voice Mode. Интерфейс прикладного программирования Realtime также получает поддержку WebRTC, который представляет собой открытый стандарт для разработки голосовых приложений искусственного интеллекта в веб-браузерах. Это говорит о том, что в ближайшие месяцы мы можем увидеть гораздо больше веб-сайтов, пытающихся общаться голосом со своими пользователями.

«Наша интеграция WebRTC разработана для обеспечения плавного и отзывчивого взаимодействия в реальных условиях, даже при переменном качестве сети», — говорится в сообщении OpenAI. «Она обеспечивает кодирование звука, потоковую передачу, подавление шума и контроль перегрузки».

Наконец, появилась новая функция под названием «прямая оптимизация предпочтений» предназначенная для разработчиков, которые хотят усовершенствовать свои модели искусственного интеллекта. С учетом существующих методов контролируемой тонкой настройки разработчикам необходимо предоставлять примеры пар ввода/вывода, которые они хотят использовать для доработки своих моделей. С помощью этой новой функции они смогут вместо этого просто предоставлять два разных ответа и указывать, какой из них предпочтительнее другого.

По данным компании, это поможет оптимизировать модели, чтобы узнать разницу между предпочтительными и нежелательными ответами пользователя, автоматически обнаруживая любые изменения в форматировании, рекомендациях по стилю или многословии, и учитывать их в новой модели.

Источник: