OpenAI делает общедоступным видеогенератор Sora на основе ИИ

Рубрики: «Искусственный интеллект (AI)», «Генеративный AI (Gen AI)»

10.12.2024

Компания OpenAI представила пользователям ChatGPT Plus и ChatGPT Pro свою долгожданную модель генерации видео Sora на основе искусственного интеллекта.

OpenAI делает видеогенератор Sora общедоступным

Предварительная версия видеогенератора Sora дебютировала в феврале этого года. Новая версия Sora Turbo содержит улучшения, которые позволяют ей генерировать видео значительно быстрее предыдущей модели.

Теперь подписчики ChatGPT Plus смогут создавать 50 видеороликов в месяц с максимальным разрешением 720p и продолжительностью до пяти секунд. Пользователи плана ChatGPT Pro, который дебютировал на прошлой неделе и стоит в десять раз дороже, смогут создавать 500 видеороликов в месяц. Клипы могут быть длиной до 20 секунд с максимальным разрешением 1080p. Доступ к Sora можно получить через новый специализированный веб-сайт. Интерфейс содержит несколько инструментов, разработанных для облегчения процесса генерации видео.

Отправной точкой видеопроекта является подсказка, с помощью которой пользователь указывает, что должно быть изображено в клипе. Клиенты могут настроить стиль, в котором Sora создает кадры, длину клипа и другие детали. Модель выводит генерируемое ею видео в одном из трех форматов: широкоэкранном, вертикальном и квадратном.

OpenAI снабдила Sora возможностью переключаться между соотношениями сторон, обучив ее на так называемых пространственно-временных патчах. Это единицы данных, аналогичные токенам - фрагментам информации, которые содержат текст, обработанный большой языковой моделью. Пространственно-временные патчи обеспечивают стандартизированный способ хранения мультимодальных данных, обрабатываемых искусственным интеллектом для генерации видео.

Подобно тому, как токены могут хранить различные типы текста, включая программный код, пространственно-временные патчи могут содержать видео с различными соотношениями сторон. Компания OpenAI создала патчи, на которых обучила модель Sora в два этапа. Сначала она превратила каждое видео из обучающего набора данных в скрытое пространство, абстрактное математическое представление, которое требует меньше места для хранения, чем исходный файл. Затем OpenAI разделила скрытое пространство на более мелкие фрагменты. Каждый такой фрагмент является отдельным пространственно-временным патчем.

Помимо возможности Sora настраивать соотношение сторон видео, технология также имеет и другие преимущества. OpenAI утверждает, что использование пространственно-временных патчей позволило ей обучить Sora на видео с переменной длительностью, разрешением и соотношением сторон, что упростило процесс разработки.

Наряду с настройками соотношения сторон Sora компания также предлагает набор более продвинутых элементов управления для настройки видео. Вместо ввода одного запроса на создание клипа, продвинутые пользователи могут разделить видео на сегменты и настроить каждый сегмент с помощью отдельного набора инструкций. Если один из кадров не соответствует требованиям, они могут изменить его, введя дополнительный запрос. Более того, Sora предоставляет возможность извлечь кадр и расширить его, чтобы создать совершенно новое видео.

Функция Blend позволяет объединить два клипа в новое видео. В другом разделе интерфейса Sora, в разделах «Избранные» и «Последние», отображаются видеоролики, созданные другими пользователями.

«Запуск OpenAI Sora знаменует собой момент трансформации в технологиях видео, генерируемых искусственным интеллектом», — сказал Алон Ямин, соучредитель и генеральный директор платформы анализа текста на основе ИИ Copyleaks. «Хотя это открывает много дверей для творческого контента, но и также вновь поднимает уже насущные вопросы об авторских правах, подлинности и будущем творческих индустрий. Поскольку возможности ИИ продолжают развиваться, важно установить надлежащие правила, инструменты и общие передовые практики, которые защищают подлинность и обеспечивают этичное использование в этом быстро меняющемся ландшафте».

Источник: