Все о Цифровых системах - новости, статьи, обзоры, аналитика. Более 1000 компаний, товаров и услуг в каталоге.
Добавить компанию

Новый искусственный интеллект DeepMind может генерировать саундтреки для видео

Рубрики: «Искусственный интеллект (AI)», «Генеративный искусственный интеллект»

Модели генерации видео на базе ИИ развиваются очень быстрыми темпами, однако многие современные системы могут создавать только немое видео. Значительным достижением станет создание к этим немым фильмам звукового сопровождения. Google DeepMind разрабатывает технологию преобразования видео в аудио (video-to-audio или V2A), позволяющую синхронизировать аудиовизуальную генерацию и воплощать созданные фильмы в жизнь. В своем официальном блоге DeepMind сообщает, что рассматривает технологию V2A как важную часть мультимедиа-головоломки, генерируемой ИИ.

Технология V2A использует описание саундтрека (например, «медуза, пульсирующая под водой, морская жизнь, океан») в сочетании с видео для создания музыки, звуковых эффектов и даже диалогов, которые соответствуют персонажам и тону видео. По словам DeepMind, диффузионная модель искусственного интеллекта, лежащая в основе V2A, была обучена на сочетании звуков, расшифровок диалогов и видеоклипов.

«Благодаря обучению видео, аудио и дополнительным аннотациям наша технология учится связывать конкретные звуковые события с различными визуальными сценами, одновременно реагируя на информацию, представленную в аннотациях или расшифровках», - сообщает DeepMind.

Стоит отметить, что V2A может генерировать неограниченное количество звуковых дорожек для любого видеовхода. Технология также может создавать саундтреки для ряда традиционных материалов, включая архивные материалы, немые фильмы и многое другое, что открывает более широкий спектр творческих возможностей.

«Мы экспериментировали с авторегрессионным и диффузионным подходами, чтобы найти наиболее масштабируемую архитектуру искусственного интеллекта. Подход генерации звука, основанный на диффузии, дал наиболее реалистичные и убедительные результаты для синхронизации видео и аудио информации», — заявили в компании.

Система V2A работает следующим образом – для начала осуществляется кодирование входного видео в сжатое представление. Затем диффузионная модель итеративно очищает звук от случайного шума, руководствуясь визуальным вводом и подсказками на естественном языке. Этот процесс генерирует синхронизированный, реалистичный звук, который точно соответствует подсказке. Наконец, аудиовыход декодируется, преобразуется в звуковой сигнал и объединяется с видеоданными.

Чтобы генерировать звук более высокого качества и направлять модель на создание определенных звуков, компания добавила в процесс обучения такую ​​информацию, как созданные искусственным интеллектом аннотации с подробными описаниями звука и расшифровки диалогов.

Источник: