Google представляет новые инструменты ИИ для обработки изображений и видео

Рубрики: «Искусственный интеллект (AI)», «Генеративный AI (Gen AI)»

17.12.2024

Компания Google представила модель искусственного интеллекта Veo 2, способную создавать видеоролики высокого разрешения продолжительностью до двух минут, новую версию генератора изображений Imagen 3 и инструмент под названием Whisk, который использует Imagen 3 для редактирования существующих изображений.

Новая модель Veo 2 генерирует видео на основе подсказок на естественном языке. Пользователи могут ввести несколько предложений, описывающих, какие объекты должен содержать клип, а также способ, которым эти объекты должны быть отображены. При желании можно ввести инструкции для определенных моментов времени, например, для окончания видео.

Также Veo 2 позволяет настраивать кинематографические параметры клипа. ИИ может имитировать такие характеристики камеры, как определенный тип объектива или кинопленки. Например, пользователи могут поручить Veo 2 сгенерировать видео так, как будто оно снято 18-миллиметровым объективом, оптимизированным для широкоугольной съемки. Модель также поддерживает кинематографические эффекты. В одном из примеров компания Google показала модель Veo 2, генерирующей видео с объемным освещением. Это метод рендеринга для создания реалистичных лучей света.

Модель Veo 2 является преемником одноименного видеогенератора на основе ИИ, который компания Google представила в мае. По сравнению с предшественником, новая модель производит более реалистичные и подробные клипы с разрешением до 4K, что соответствует разрешению 3840 на 2160 пикселей.

«Модель обеспечивает более глубокое понимание физики реального мира, а также нюансов движений и выражений лица человека, что помогает повысить детализацию и реализм в целом», — описал в своем блоге научный сотрудник Google DeepMind Аарон ван ден Оорд.

В то же время Veo 2 имеет определенные ограничения. Например, модель испытывает трудности с сохранением согласованности кадров во всех сложных сценах или в сценах со сложным движением.

Компания планирует интегрировать Veo 2 в несколько своих продуктов, включая YouTube Shorts и Vertex AI - инструментарий для разработки ИИ от Google Cloud. Первоначально модель будет доступна в Google Labs - сервисе, который обеспечивает ранний доступ к новейшим функциям искусственного интеллекта.

Google также представила новую версию Imagen 3 - самого передового генератора изображений на основе искусственного интеллекта компании. По сравнению с оригинальным Imagen 3, новый генерирует более яркие изображения с «более богатыми деталями и текстурами», а также лучше следует подсказкам пользователя.

Генератор изображений Imagen 3 поддерживает новый сервис Whisk, который также будет доступен через Google Labs. Он позволяет объединять несколько существующих изображений в одно новое. Например, Whisk может, применить стиль одного изображения к фону другого.

Для создания изображений Whisk использует не только Imagen 3, но и серию крупных языковых моделей Gemini от Google. Когда пользователи загружают фотографии для дальнейшего объединения, Gemini генерирует подробное описание для каждого изображения. Эти описания помогают Imagen 3 определить, как выполнять процесс редактирования.

Источник: