Новая система искусственного интеллекта VASA-1 от Microsoft генерирует суперреалистичные говорящие головы

19.04.2024

Корпорация Microsoft опубликовала исследовательскую работу, в которой представлен новый вид системы искусственного интеллекта, позволяющий загружать неподвижные фотографии, добавлять образцы голоса и создавать сверхреалистичную говорящую голову, которая выглядит и звучит как настоящий человек.

Новая платформа называется VASA-1. Она берет одно изображение в портретном стиле и аудиофайл и объединяет их вместе таким образом, что создаётся короткое видео говорящей головы с реалистичным выражением лица, движениями и даже возможностью петь песни загруженным голосом. Microsoft заявила, что в настоящее время VASA-1 является лишь исследовательским проектом, поэтому компания не предоставляет его для использования кому-либо еще, но опубликовала ряд демонстрационных видеороликов с поразительной реалистичностью. Хотя корпорации Nvidia и Runway AI Inc. уже выпустили аналогичную технологию, VASA-1, похоже, способна создавать гораздо более реалистичные говорящие головы с уменьшенными артефактами рта.

Новая платформа Microsoft разработана специально для анимации виртуальных персонажей, поэтому все люди в ее примерах являются синтетическими, созданными с использованием модели генерации изображений DALL-E от OpenAI. Однако у нее явно есть потенциал пойти дальше, потому что, если с помощью ИИ возможно анимировать изображение, то так же легко анимировать фотографию реального человека. В демо-версии говорящие головы выглядят как реальные люди, снятые на видео, с плавными, естественными движениями. Особенно впечатляют возможности синхронизации губ, и очень сложно заметить какие-либо неестественные движения.

Не менее впечатляющим является то, что для работы VASA-1, похоже, не требуется традиционное изображение лицом вперед (как в паспорте). В примерах есть кадры голов, смотрящих немного в разные стороны. Модель также предлагает высокий уровень контроля, используя в качестве входных данных такие параметры, как направление взгляда, расстояние между головами и даже выражения эмоций, что еще больше повышает реалистичность.

С точки зрения практического применения, одним из наиболее очевидных вариантов использования являются видеоигры. VASA-1 может позволить разработчикам создавать более реалистичных персонажей с чрезвычайно естественными движениями губ и выражением лица. Эту технологию также можно использовать для создания аватаров в видеороликах в социальных сетях и, возможно, даже пойти дальше и снять с помощью ИИ более реалистичные фильмы или музыкальные клипы, где создается впечатление, будто актер, актриса или певец действительно разговаривает или поет. Помимо способности идеально синхронизировать говорящие головы с загруженной песней, VASA-1 также может обрабатывать нарисованные изображения, например, Мону Лизу, читающую слова рэп-песни «Paparazzi».

VASA-1 также может обрабатывать нечеловеческие изображения, например, Мону Лизу, читающую слова рэп-песни «Paparazzi».

Тем не менее, несмотря на огромный потенциал для творчества, здесь несомненно, существует вероятность неправильного использования этой технологии. Безусловно VASA-1 значительно облегчит жизнь любому, кто занимается созданием дипфейковых видео. Например, можно загрузить фотографию какого-либо известного человека, а затем короткий аудиоклип с его голосом и создать реалистичное видео, на котором он говорит все, что от него хотят. Риск неправильного использования объясняет, почему Microsoft так настороженно относится к этому проекту.

«Наше исследование сосредоточено на создании визуальных аффективных навыков для виртуальных аватаров ИИ с целью их положительного применения», — заявили исследователи Microsoft. «Оно не предназначен для создания контента, который будет использоваться для введения в заблуждение или обмана. Однако, как и другие связанные методы создания контента, его все равно потенциально можно использовать не по назначению для выдачи себя за других людей».

Компания заявила, что в настоящее время не планирует публиковать онлайн демо-версию продукта или дополнительные подробности реализации, добавив, что она рассмотрит возможность сделать это только тогда, когда будет уверена, что технология будет использоваться ответственно.

Источник: