Google вслед за Meta внедряет искусственный интеллект для преобразования текста в видео

13.10.2022

Исследователи из лаборатории искусственного интеллекта Google Brain представили Imagen Video - программу, которая может создавать высококачественные видеоролики из текста, аналогичную тому, что ранее представила Meta Platforms Inc.

Google называет Imagen Video «системой генерации текстового видео, основанной на каскаде моделей распространения видео». С помощью всего лишь текстовой подсказки искусственный интеллект (ИИ) может генерировать видео высокой четкости, используя базовую модель генерации и последовательность чередующихся пространственных и временных моделей видео сверхвысокого разрешения.

Генератор будет выдавать HD-видео с разрешением 1280×768 и со скоростью 24 кадра в секунду. В настоящее время он находится на стадии разработки, но это уже значительный шаг вперед по сравнению с моделью преобразования текста в изображение DALL-E, которую Google представила ранее в этом году. При этом, если бы вы сказали, что хотите увидеть неподвижный кадр космонавта верхом на лошади, вы его получили бы. Теперь, похоже, можно заставить команду астронавтов мчаться на лошадях галопом по космосу.

Чтобы запрограммировать генератор видео, Google предоставил ему для анализа широкий спектр видео роликов и статичных изображений, каждое из которых помечено некоторым текстом. Таким образом, когда вы вводите текст, генератор воспроизводит в обобщенном виде видео и изображения, которые он видел в прошлом. Для обучения ИИ было использовано 14 миллионов видеороликов и 60 миллионов статичных изображений, а также 400 миллионов изображений в открытом наборе данных LAION-400M. Google показала несколько примеров, например, как панда ест или как плюшевый мишка моет посуду.

В Google заявили, что осознали, что в технологиях манипулирования видео всегда есть опасность, например, когда люди создают то, что стало известно под названием «дипфейки». Такая технология уже является проблемой, но по мере развития систем общество может столкнуться с еще более серьезной проблемой.

«Модели генерации видео могут быть использованы для позитивного воздействия на общество, например, путем усиления и приумножения человеческого творчества», - заявили в компании. «Однако эти генеративные модели также могут использоваться неправильно, например, для создания поддельного, вызывающего ненависть, откровенного или вредного контента. Мы предприняли множество шагов, чтобы свести к минимуму эти проблемы, например, во внутренних испытаниях мы применяем фильтрацию входных текстовых подсказок и фильтрацию выходного видеоконтента».

Источник: