Исследователи Google разрабатывают новую систему ИИ для создания видео

Рубрики: «Искусственный интеллект (AI)», «Генеративный AI (Gen AI)»

26.01.2024

Компания Google представила систему искусственного интеллекта для создания видео под названием Lumiere, которая может превзойти более ранние модели ИИ в этой категории.

По данным Google, Lumiere может генерировать пятисекундные видеоролики с разрешением 1024 на 1024 пикселей. Система способна создавать новые клипы на основе предоставленного пользователем текстового запроса или изображения, а также редактировать уже существующие клипы.

Lumiere состоит из двух отдельных моделей искусственного интеллекта:

Первая, которую исследователи Google назвали Space-Time U-Net, генерирует на основе запроса пользователя первоначальный клип с низким разрешением.
Вторая модель ИИ повышает разрешение этого клипа, чтобы создать окончательную версию с разрешением 1024х1024 пикселей, которую уже и выводит Lumiere.

Модель Space-Time U-Net, создающая исходное видео с низким разрешением, основана на так называемой диффузионной архитектуре. Эта архитектура лежит в основе многих самых популярных генераторов изображений ИИ на рынке.

Модели ИИ на основе диффузии отличаются от других нейронных сетей способом их обучения. Чтобы обучить диффузионную модель, ей предоставляется набор фотографий, которые содержат тип ошибки, известный как "гауссов шум". Затем модель должна устранить ошибку, чтобы воссоздать исходные фотографии. Это процесс, посредством которого искусственный интеллект учится создавать совершенно новые изображения с нуля.

Space-Time U-Net — не единственная модель искусственного интеллекта, способная генерировать видео. Однако здесь используется другой по сравнению с более ранними нейронными сетями этой категории. Как известно, видео — это набор изображений или кадров, отображаемых друг за другом. Системы искусственного интеллекта обычно генерируют эту последовательность кадров в два этапа. Сначала они создают первое и последнее изображения в последовательности, а затем добавляют оставшиеся кадры.

Модель Space-Time U-Net решает эту задачу по-другому. Вместо создания кадров клипа по частям, она создает весь клип за один проход. Google утверждает, что этот подход позволяет Lumiere генерировать видео более высокого качества по сравнению со многими существующими нейронными сетями.

Компания оценила возможности системы искусственного интеллекта, заставив ее сгенерировать серию пятисекундных видеороликов на основе 113 различных подсказок. В качестве дополнительной меры оценки также использовался эталонный набор данных под названием UCF101. Исследователи определили, что система Lumiere достигла «самых современных результатов генерации видео» по сравнению с другими нейронными сетями, предназначенными для той же задачи.

Помимо создания видеоконтента на основе текстовых подсказок, Lumiere также может создавать клипы в стиле эталонного изображения, загруженного пользователем. Она также способна изменять существующие клипы. Кроме того, Lumiere может создавать анимацию, называемую "синемаграфией", в которой движутся только некоторые элементы, а остальные остаются неподвижными.

Источник: