OpenAI представляет аудиомодели искусственного интеллекта следующего поколения

Модели преобразования речи в текст, gpt-4o-transcribe и gpt-4o-mini-transcribe, поднимают планку качества перевода, снижая частоту ошибок в словах (WER) и улучшая производительность в сложных условиях, таких как шумная обстановка и различные акценты говорящего. Эти модели используют обучение с подкреплением, которое повышает точность транскрипции и минимизирует галлюцинации.
Модель преобразования текста в речь, gpt-4o-mini-tts, позволяет разработчикам настраивать не только выдачу сообщения, но и то, как подаётся сообщение — например, теплый, чуткий тон для службы поддержки клиентов или анимированный стиль для креативного повествования.
Обновленный комплект разработчика «Agents SDK» упрощает создание голосовых агентов, преобразующих речь в речь (S2S), и агентов, преобразующих речь в текст и снова в речь (S2T2S), обеспечивая более быстрое и естественное взаимодействие. Эти модели разработаны для работы в рамках многомодальных фреймворков ИИ, являясь частью более широкой системы GPT-4o, которая обрабатывает входные и выходные данные в виде текста, аудио, изображений и видео.
В новых моделях компания реализовала существенные технические инновации и улучшения производительности, которые обусловлены следующими функциями:
- Расширенная предварительная подготовка: используя специализированные наборы аудиоданных, OpenAI усовершенствовала модели для понимания нюансов речи, включая акценты произношения, различную скорость речи и фоновый шум.
- Расширенная дистилляция: процесс дистилляции переносит знания из более крупных аудиомоделей в более мелкие и эффективные варианты. Это достигается с помощью методик самовоспроизведения, которые имитируют настоящую разговорную динамику, гарантируя, что модели могут обрабатывать реальные взаимодействия с минимальной задержкой.
- Сквозная мультимодальная обработка: в отличие от устаревших конвейеров, интегрированное обучение GPT-4o по тексту, изображению и звуку сохраняет важнейшие детали, такие как интонация, эмоции и фоновая обстановка, что повышает как точность, так и выразительность голосовых ответов.
Эти инновации приносят практические преимущества разработчикам и предприятиям, позволяя им использовать новые аудиомодели для следующих задач:
- Поддержка клиентов: голосовые агенты теперь могут обрабатывать сложные запросы со скоростью, приближенной к реакции человека, что улучшает работу колл-центра и повышает удовлетворенность клиентов.
- Изучение языка: ИИ-тренеры, оснащенные этими моделями, предоставляют обратную связь по произношению и навыкам разговорной речи в режиме реального времени, тем самым улучшая процесс обучения.
- Инструменты обеспечения специальных возможностей: улучшенные голосовые агенты расширяют возможности пользователей с ограниченными возможностями, обеспечивая более интуитивно понятное и быстрое взаимодействие.
- Расшифровка собраний: эти модели идеально подходят для транскрипции и анализа на корпоративном уровне, обеспечивая высочайшую точность даже в ситуациях с несколькими говорящими.
Предыдущие версии голосового ИИ страдали от заметных задержек из-за многомодельных конвейеров. Новый интегрированный подход OpenAI значительно сокращает время ожидания - среднее время отклика составляет всего 320 миллисекунд (в оптимальных условиях еще меньше - 232 миллисекунды) по сравнению с предыдущими задержками в 2,8 - 5,4 секунды. Такая скорость реакции, близкая к человеческой, делает общение в режиме реального времени не только возможным, но и удивительно естественным.
Таким образом, аудиомодели следующего поколения OpenAI представляют собой смену парадигмы в технологии голосового искусственного интеллекта. Благодаря значительному сокращению времени ожидания, повышению точности транскрипции и обеспечению богатого, настраиваемого голосового вывода эти модели закладывают основу для будущего, в котором взаимодействие человека с ИИ будет таким же естественным и выразительным, как и общение людей друг с другом.



