OpenAI представляет аудиомодели искусственного интеллекта следующего поколения

Рубрики: «Искусственный интеллект (AI)», «Генеративный AI (Gen AI)»

24.03.2025

OpenAI выпустила набор усовершенствованных аудиомоделей, разработанных для поддержки более интеллектуальных голосовых агентов. Компания представила модели «речь-в-текст» (преобразование голоса в написанные слова) и «текст-в-речь» (преобразование написанных слов в голос). Эти инструменты теперь доступны разработчикам по всему миру.

Модели преобразования речи в текст, gpt-4o-transcribe и gpt-4o-mini-transcribe, поднимают планку качества перевода, снижая частоту ошибок в словах (WER) и улучшая производительность в сложных условиях, таких как шумная обстановка и различные акценты говорящего. Эти модели используют обучение с подкреплением, которое повышает точность транскрипции и минимизирует галлюцинации.

Модель преобразования текста в речь, gpt-4o-mini-tts, позволяет разработчикам настраивать не только выдачу сообщения, но и то, как подаётся сообщение — например, теплый, чуткий тон для службы поддержки клиентов или анимированный стиль для креативного повествования.

Обновленный комплект разработчика «Agents SDK» упрощает создание голосовых агентов, преобразующих речь в речь (S2S), и агентов, преобразующих речь в текст и снова в речь (S2T2S), обеспечивая более быстрое и естественное взаимодействие. Эти модели разработаны для работы в рамках многомодальных фреймворков ИИ, являясь частью более широкой системы GPT-4o, которая обрабатывает входные и выходные данные в виде текста, аудио, изображений и видео.

В новых моделях компания реализовала существенные технические инновации и улучшения производительности, которые обусловлены следующими функциями:

Расширенная предварительная подготовка: используя специализированные наборы аудиоданных, OpenAI усовершенствовала модели для понимания нюансов речи, включая акценты произношения, различную скорость речи и фоновый шум.
Расширенная дистилляция: процесс дистилляции переносит знания из более крупных аудиомоделей в более мелкие и эффективные варианты. Это достигается с помощью методик самовоспроизведения, которые имитируют настоящую разговорную динамику, гарантируя, что модели могут обрабатывать реальные взаимодействия с минимальной задержкой.
Сквозная мультимодальная обработка: в отличие от устаревших конвейеров, интегрированное обучение GPT-4o по тексту, изображению и звуку сохраняет важнейшие детали, такие как интонация, эмоции и фоновая обстановка, что повышает как точность, так и выразительность голосовых ответов.

Эти инновации приносят практические преимущества разработчикам и предприятиям, позволяя им использовать новые аудиомодели для следующих задач:

Поддержка клиентов: голосовые агенты теперь могут обрабатывать сложные запросы со скоростью, приближенной к реакции человека, что улучшает работу колл-центра и повышает удовлетворенность клиентов.
Изучение языка: ИИ-тренеры, оснащенные этими моделями, предоставляют обратную связь по произношению и навыкам разговорной речи в режиме реального времени, тем самым улучшая процесс обучения.
Инструменты обеспечения специальных возможностей: улучшенные голосовые агенты расширяют возможности пользователей с ограниченными возможностями, обеспечивая более интуитивно понятное и быстрое взаимодействие.
Расшифровка собраний: эти модели идеально подходят для транскрипции и анализа на корпоративном уровне, обеспечивая высочайшую точность даже в ситуациях с несколькими говорящими.

Предыдущие версии голосового ИИ страдали от заметных задержек из-за многомодельных конвейеров. Новый интегрированный подход OpenAI значительно сокращает время ожидания - среднее время отклика составляет всего 320 миллисекунд (в оптимальных условиях еще меньше - 232 миллисекунды) по сравнению с предыдущими задержками в 2,8 - 5,4 секунды. Такая скорость реакции, близкая к человеческой, делает общение в режиме реального времени не только возможным, но и удивительно естественным.

Таким образом, аудиомодели следующего поколения OpenAI представляют собой смену парадигмы в технологии голосового искусственного интеллекта. Благодаря значительному сокращению времени ожидания, повышению точности транскрипции и обеспечению богатого, настраиваемого голосового вывода эти модели закладывают основу для будущего, в котором взаимодействие человека с ИИ будет таким же естественным и выразительным, как и общение людей друг с другом.

Источник: