Гонка генеративного видео в Китае набирает обороты

Рубрики: «Искусственный интеллект (AI)», «Машинное обучение (ML)», «Генеративный AI (Gen AI)»

06.02.2024

Китайский интернет-гигант Tencent, известный своей империей видеоигр и мессенджером WeChat, представил на GitHub новую версию своей модели создания видео с открытым исходным кодом под названием DynamiCrafter. Это напоминание о том, что некоторые крупнейшие технологические компании Китая постепенно наращивают усилия, чтобы внести свой вклад в сферу преобразования текста и изображений в видео.

Как и другие представленные на рынке инструменты генеративного видео, DynamiCrafter использует метод диффузии для превращения текстов и неподвижных изображений в видеоролики длиной в несколько секунд. Вдохновленные естественным явлением диффузии в физике, модели диффузии в машинном обучении могут преобразовывать простые данные в более сложные и реалистичные, подобно тому, как частицы перемещаются из одной области с высокой концентрацией в другую область с низкой концентрацией.

Второе поколение DynamiCrafter создает видео с разрешением 640×1024 пикселей, что является улучшением по сравнению с выпущенной в октябре первоначальной версией, в которой создавались видео с разрешением 320×512. В статье, опубликованной командой DynamiCrafter, отмечается, что ее технология отличается от технологий конкурентов тем, что она расширяет применимость методов анимации изображений к «более общему визуальному контенту».

«Ключевая идея состоит в том, чтобы в моделях преобразования текста в видео использовать принцип движения, включив в процесс создания видео изображение в качестве ориентира», - говорится в статье. «Традиционные же методы в основном сосредоточены на анимации природных сцен со стохастической динамикой (например, облака и жидкость) или движениями, специфичными для конкретной области (например, человеческие волосы или движения тела)».

генеративное видео Girl

При сравнении модели DynamiCrafter с представленной в ноябре Stable Video Diffusion и недавно разрекламированной Pika Labs, результат Tencent выглядит немного более оживленным. Выбранные тесты показывают несомненное преимущество DynamiCrafter, однако ни одна из моделей не оставляет впечатления, что ИИ сможет скоро самостоятельно создавать полноценные фильмы.

Тем не менее, после бума генеративного текста и изображений, на генеративные видео возлагаются большие надежды как на следующий тренд в гонке ИИ. Таким образом, ожидается, что стартапы и технологические игроки будут вкладывать ресурсы в эту область. Китай не является исключением. Помимо Tencent, материнская компания TikTok ByteDance, а также Baidu и Alibaba выпустили свои модели генерации видео.

MagicVideo от ByteDance и UniVG от Baidu представлены демоверсиями на GitHub, хотя ни одна из них пока не доступна для широкой публики. Как и Tencent, китайская Alibaba создала свою модель генерации видео с открытым исходным кодом под названием VGen. Данная стратегия становится все более популярной среди китайских технологических компаний, надеющихся охватить мировое сообщество разработчиков.

Источник