Amazon представляет новую голосовую модель Nova Sonic
Обычно обработка речи включает в себя три этапа. Во-первых, приложение должно использовать модель распознавания речи для транскрибирования аудио. Затем приложение передает расшифровку в большую языковую модель, которая генерирует текстовый ответ, а третий алгоритм преобразует выведенный текст в речь.
Использование трех разных нейронных сетей усложняет разработку программного обеспечения и замедляет производительность приложений искусственного интеллекта. Передача данных из одной нейронной сети в другую занимает время, что добавляет задержку к оперативным ответам.
Amazon утверждает, что новая модель Nova Sonic позволяет компаниям заменить три нейронные сети одной, что упрощает разработку. Также это повышает производительность модели:Nova Sonic начинает реагировать на пользовательский ввод в среднем через 1,09 секунды. По словам Amazon, это делает модель быстрее, чем конкурирующие продукты от OpenAI и Google.
Опираясь на поведение пользователя Nova Sonic может адаптировать синтезированную ею речь. Например, в середине разговора модель может поменять свой тон, а если для выполнения запроса требуется больше информации, то задать уточняющие вопросы. Если требуемая Nova Sonic информация не предоставляется во время разговора, то она может извлекать данные из внешних систем. Например, чтобы определить, есть ли на складе запрошенный товар, модель может проверять приложение для управления запасами. Nova Sonic также может выполнять такие задачи, как размещение заказов в приложениях, с которыми она интегрирована.
В фоновом режиме модель генерирует расшифровку речи, которая через интерфейс прикладного программирования (API) может быть передана другим моделям искусственного интеллекта. Например, производитель электроники может отправлять расшифровки из контакт-центра в приложение ИИ, которое измеряет настроения клиентов.
На момент запуска Nova Sonic поддерживает английский язык и несколько акцентов. В будущем будут доступны дополнительные языки и акценты. Разработчики могут получить доступ к Nova Sonic через сервис Amazon Bedrock, который предоставляет доступ к размещенным в облаке AWS базовым моделям Amazon и других поставщиков.
«Мы выпускаем новую базовую модель в Amazon Bedrock, которая упрощает разработчикам создание голосовых приложений, способных с большей точностью выполнять задачи клиентов, оставаясь при этом более естественными и интересными», — сказал Рохит Прасад, старший вице-президент Amazon по общему искусственному интеллекту.