OpenAI подробно рассказала о модели ИИ для генерации речи

Рубрики: «Искусственный интеллект (AI)», «Генеративный AI (Gen AI)»

01.04.2024

Компания OpenAI подробно рассказала о модели искусственного интеллекта Voice Engine, которая может генерировать синтетическую речь на основе предоставленных пользователем аудиосэмплов.

Компания разработала модель в конце 2022 года для реализации функций ChatGPT, которые позволяют клиентам взаимодействовать с чат-ботом с помощью голосовых команд и заставлять его читать текст вслух. Кроме того, в прошлом году в рамках пилотной программы OpenAI сделала модель доступной ограниченному числу партнеров.

Voice Engine может анализировать образец голоса пользователя, а затем генерировать синтетическую речь, очень похожим голосом. По данным OpenAI, искусственному интеллекту требуется всего 15 секунд звука для имитации голоса говорящего. В своем блоге компания описала Voice Engine как «маленькую модель», подразумевая, что для ее работы требуется ограниченная вычислительная инфраструктура.

Пока OpenAI еще не сделала модель Voice Engine общедоступной. Однако в конце 2023 года она открыла доступ к модели для ограниченного числа партнеров, которые успешно применили Voice Engine для таких задач, как создание закадрового голоса при записи образовательного контента и переводе видеоматриалов. Участники пилотной программы согласились воспроизводить голоса людей только с их разрешения. Кроме того, клиенты должны были добавлять к генерируемой при помощи искусственного интеллекта речи информацию о том, что она синтетическая.

OpenAI сообщила, что предприняла несколько шагов для обеспечения соблюдения участниками пилотного проекта условий использования. Инженеры компании настроили Voice Engine для включения в синтетические речевые файлы водяных знаков. Кроме того, OpenAI запустила инициативу «превентивного мониторинга», чтобы гарантировать ответственное использование модели ИИ.

«Мы надеемся начать диалог об ответственном использовании синтетических голосов и о том, как общество может адаптироваться к этим новым возможностям», — написали сотрудники OpenAI в блоге с подробным описанием Voice Engine. «На основе этих разговоров и результатов небольших испытаний мы примем более обоснованное решение о том, стоит ли развертывать эту технологию в больших масштабах и каким образом это можно сделать».

Если OpenAI решит сделать Voice Engine коммерчески доступным, модель искусственного интеллекта может создать большую конкуренцию существующим на рынке службам синтетической речи. Также OpenAI потенциально может открыть исходный код Voice Engine. В 2022 году, когда была разработана модель, компания выпустила код второй системы искусственного интеллекта под названием Whisper, которая может расшифровывать и переводить речь. В OpenAI тогда уточнили, что последняя модель производит на 50% меньше ошибок, чем более ранние нейронные сети в этой категории.

Источник: