Новый искусственный интеллект DeepMind может генерировать саундтреки для видео

Рубрики: «Искусственный интеллект (AI)», «Генеративный AI (Gen AI)»

18.06.2024

Исследовательская лаборатория Google DeepMind разрабатывает технологию искусственного интеллекта для создания саундтреков и диалогов к видео.

Модели генерации видео на базе ИИ развиваются очень быстрыми темпами, однако многие современные системы могут создавать только немое видео. Значительным достижением станет создание к этим немым фильмам звукового сопровождения. Google DeepMind разрабатывает технологию преобразования видео в аудио (video-to-audio или V2A), позволяющую синхронизировать аудиовизуальную генерацию и воплощать созданные фильмы в жизнь. В своем официальном блоге DeepMind сообщает, что рассматривает технологию V2A как важную часть мультимедиа-головоломки, генерируемой ИИ.

Технология V2A использует описание саундтрека (например, «медуза, пульсирующая под водой, морская жизнь, океан») в сочетании с видео для создания музыки, звуковых эффектов и даже диалогов, которые соответствуют персонажам и тону видео. По словам DeepMind, диффузионная модель искусственного интеллекта, лежащая в основе V2A, была обучена на сочетании звуков, расшифровок диалогов и видеоклипов.

«Благодаря обучению видео, аудио и дополнительным аннотациям наша технология учится связывать конкретные звуковые события с различными визуальными сценами, одновременно реагируя на информацию, представленную в аннотациях или расшифровках», - сообщает DeepMind.

Стоит отметить, что V2A может генерировать неограниченное количество звуковых дорожек для любого видеовхода. Технология также может создавать саундтреки для ряда традиционных материалов, включая архивные материалы, немые фильмы и многое другое, что открывает более широкий спектр творческих возможностей.

«Мы экспериментировали с авторегрессионным и диффузионным подходами, чтобы найти наиболее масштабируемую архитектуру искусственного интеллекта. Подход генерации звука, основанный на диффузии, дал наиболее реалистичные и убедительные результаты для синхронизации видео и аудио информации», — заявили в компании.

Система V2A работает следующим образом – для начала осуществляется кодирование входного видео в сжатое представление. Затем диффузионная модель итеративно очищает звук от случайного шума, руководствуясь визуальным вводом и подсказками на естественном языке. Этот процесс генерирует синхронизированный, реалистичный звук, который точно соответствует подсказке. Наконец, аудиовыход декодируется, преобразуется в звуковой сигнал и объединяется с видеоданными.

Чтобы генерировать звук более высокого качества и направлять модель на создание определенных звуков, компания добавила в процесс обучения такую информацию, как созданные искусственным интеллектом аннотации с подробными описаниями звука и расшифровки диалогов.

Источник: