Исследователи Amazon разрабатывают новейшую модель преобразования текста в речь

16.02.2024

Исследователи компании Amazon.com разработали новую модель преобразования текста в речь под названием Base TTS, которая может произносить слова более естественно, чем предыдущие нейронные сети.

Amazon Base TTS

Эта модель также является крупнейшей нейронной сетью в своей категории. Самая продвинутая версия BASE TTS содержит около 1 миллиарда параметров, то есть настроек конфигурации, определяющих, как искусственный интеллект обрабатывает данные. В целом увеличение количества параметров модели ИИ расширяет круг задач, которые она может выполнять.

Исследователи Amazon обучили Base TTS на 100’000 часах аудио, полученных из общедоступной сети Интернет. Записи на английском языке составляют около 90% набора данных. Чтобы упростить процесс обучения, исследователи разбили аудио на небольшие файлы, каждый из которых содержал не более 40 секунд речи.

На архитектурном уровне BASE TTS состоит из двух отдельных моделей искусственного интеллекта:

Первая превращает введенный пользователем текст в абстрактные математические представления, называемые речевыми кодами.
Вторая модель представляет собой нейронную сеть, которая преобразует эти математические представления в звук.

Первая модель основана на архитектуре Transformer, лежащей в основе GPT-4. Разработанная компанией Google в 2017 году архитектура позволяет нейронным сетям при попытке определить значение слова учитывать контекст, в котором оно используется. Благодаря этой функции, нейронные сети на основе Transformer могут более точно интерпретировать входные данные по сравнению с более ранними алгоритмами. Модель Transformer в Base TTS превращает вводимый пользователем текст в речевые коды — математические представления, которые легче обрабатывать другим компонентам системы. Модель также выполняет еще две задачи. Она сжимает речевые коды для ускорения обработки и гарантирует, что звук, создаваемый Base TTS, не будет содержать ненужных элементов, таких как фоновый шум.

Как только речевые коды готовы, они переходят ко второй модели искусственного интеллекта, лежащей в основе архитектуры Base TTS. Эта модель превращает данные в спектрограммы — графики, используемые для визуализации звуковых волн. Эти графики можно легко превратить в речь, генерируемую искусственным интеллектом.

Исследователи Amazon оценили возможности Base TTS с помощью эксперта-лингвиста, а также с помощью специального автоматического теста под названием MUSHRA. Они определили, что модель может читать вслух вводимый текст более естественно, чем все предыдущие модели. Во время теста модель Base TTS успешно произносила знак @ и другие символы, а также такие паралингвистические звуки, как «шшш». Ей также удалось прочитать вслух англоязычные предложения, содержащие иностранные слова и вопросы. По данным Amazon, Base TTS хорошо выполнила задачу, хотя она и не была специально обучена для обработки некоторых типов предложений, которые были включены в тест.

Источник: