Новая модель ИИ Fugatto от Nvidia создает ранее неслыханные звуки

Рубрики: «Искусственный интеллект (AI)», «Генеративный AI (Gen AI)»

26.11.2024

Корпорация Nvidia выпустила модель генеративного искусственного интеллекта, которая предназначена для создания «новой» музыки и звуков на основе человеческих подсказок.

Новая модель ИИ под названием Fugatto (от Foundational Generative Audio Transformer Opus) обладает уникальной способностью изменять человеческие голоса и создавать «новые звуки», которые не может воспроизвести ни одна другая модель.

Nvidia заявила, что Fugatto отличается от других моделей генерации музыки и аудио, поскольку обладает способностью принимать и изменять существующие звуки. Например, она может слушать музыкальный фрагмент, сыгранный на пианино, и преобразовывать этот звук в ноты, исполняемые человеческим голосом или альтернативным инструментом, например, скрипкой. Модель также может брать запись человеческого голоса и изменять акцент и настроение, выраженные в пении.

Возможно, будет преувеличением сказать, что звуки Fugatto являются совершенно новыми, потому что, как и у всех моделей искусственного интеллекта, результаты Fugatto получены на основе алгоритма, который использует существующие источники данных для создания чего-то удовлетворяющего запросам пользователя. Тем не менее, Nvidia утверждает, что Fugatto способен «создавать невиданные ранее звуковые ландшафты», накладывая различные звуковые эффекта друг на друга.

В видеоролике, размещенном на YouTube, компания демонстрирует, как Fugatto может генерировать звук поезда, который постепенно трансформируется в оркестровое исполнение, менять радостные голоса на гневные и т. д.

Такие возможности ранее не встречались в моделях генерации звука. Кроме того, помимо базовой обработки подсказок, Fugatto поставляется с более тонкими элементами управления, позволяющими пользователям редактировать создаваемые ими звуковые ландшафты.

«Генеративный ИИ может повлиять на создание музыки так же, как это в свое время сделали электронные синтезаторы. Если мы подумаем о синтетическом звуке за последние 50 лет, то из-за компьютеров музыка теперь звучит по-другому», — сказал Брайан Катанцаро, вице-президент Nvidia по прикладным исследованиям в области глубокого обучения. «Генеративный ИИ привнесет новые возможности в музыку, видеоигры и для обычных людей, которые хотят что-то создавать».

Nvidia почти ничего не рассказала о данных, используемых для обучения Fugatto, кроме того, что они состоят из «миллионов аудиосэмплов», полученных из открытых источников. Компания также подтвердила, что пока не планирует предоставлять Fugatto разработчикам искусственного интеллекта. По словам Катацаро, его команда все еще обсуждает, как безопасно представить модель широкой публике.

«Любая генеративная технология всегда сопряжена с определенными рисками, потому что люди могут использовать ее для создания вещей, которые мы бы предпочли, чтобы они не создавали», - сказал он. «Нам нужно быть осторожными с этим, поэтому у нас нет планов по ее выпуску в ближайшее время».

Помимо проблем безопасности, Nvidia, несомненно, помнит о потенциальных проблемах с авторскими правами. В июне звукозаписывающие компании, представляющие истцов, включая Sony Music Entertainment, Warner Music Group Inc. и Universal Music Group NV, подали иски против стартапов Suno Inc. и Uncharted Labs Inc., занимающихся генеративной ИИ-музыкой, обвинив их в «широкомасштабном нарушении» авторских прав на звукозаписи в «почти невообразимых масштабах».

Источник: