Новый искусственный интеллект DeepMind может генерировать саундтреки для видео
Модели генерации видео на базе ИИ развиваются очень быстрыми темпами, однако многие современные системы могут создавать только немое видео. Значительным достижением станет создание к этим немым фильмам звукового сопровождения. Google DeepMind разрабатывает технологию преобразования видео в аудио (video-to-audio или V2A), позволяющую синхронизировать аудиовизуальную генерацию и воплощать созданные фильмы в жизнь. В своем официальном блоге DeepMind сообщает, что рассматривает технологию V2A как важную часть мультимедиа-головоломки, генерируемой ИИ.
Технология V2A использует описание саундтрека (например, «медуза, пульсирующая под водой, морская жизнь, океан») в сочетании с видео для создания музыки, звуковых эффектов и даже диалогов, которые соответствуют персонажам и тону видео. По словам DeepMind, диффузионная модель искусственного интеллекта, лежащая в основе V2A, была обучена на сочетании звуков, расшифровок диалогов и видеоклипов.
«Благодаря обучению видео, аудио и дополнительным аннотациям наша технология учится связывать конкретные звуковые события с различными визуальными сценами, одновременно реагируя на информацию, представленную в аннотациях или расшифровках», - сообщает DeepMind.
Стоит отметить, что V2A может генерировать неограниченное количество звуковых дорожек для любого видеовхода. Технология также может создавать саундтреки для ряда традиционных материалов, включая архивные материалы, немые фильмы и многое другое, что открывает более широкий спектр творческих возможностей.
«Мы экспериментировали с авторегрессионным и диффузионным подходами, чтобы найти наиболее масштабируемую архитектуру искусственного интеллекта. Подход генерации звука, основанный на диффузии, дал наиболее реалистичные и убедительные результаты для синхронизации видео и аудио информации», — заявили в компании.
Система V2A работает следующим образом – для начала осуществляется кодирование входного видео в сжатое представление. Затем диффузионная модель итеративно очищает звук от случайного шума, руководствуясь визуальным вводом и подсказками на естественном языке. Этот процесс генерирует синхронизированный, реалистичный звук, который точно соответствует подсказке. Наконец, аудиовыход декодируется, преобразуется в звуковой сигнал и объединяется с видеоданными.
Чтобы генерировать звук более высокого качества и направлять модель на создание определенных звуков, компания добавила в процесс обучения такую информацию, как созданные искусственным интеллектом аннотации с подробными описаниями звука и расшифровки диалогов.