DeepSeek выпускает модель генерации изображений Janus Pro

Рубрики: «Искусственный интеллект (AI)», «Генеративный AI (Gen AI)»

29.01.2025

DeepSeek, китайский стартап в области ИИ, выпустивший сверхпопулярного чат-бота DeepSeek AI, запустил новую передовую модель генерации изображений на основе ИИ: Janus-Pro-7B.

Стартап недавно произвел фурор после релиза большой языковой модели DeepSeek R1, когда компания сообщила, что обучение её модели обходится значительно дешевле, чем обучение других моделей аналогичного размера. В результате этого в понедельник резко упали акции корпорации Nvidia, крупнейшего поставщика передовых чипов ИИ, и многих других технологических компаний в сфере искусственного интеллекта. Возможности модели R1, ее более низкая стоимость обучения и более низкие затраты на развертывание показали, что компания может иметь существенное конкурентное преимущество.

Теперь DeepSeek выпустила Janus Pro - модель генерации изображений, которая, по утверждению компании, была разработана для обеспечения универсальности и эффективности. Это продвинутая версия на основе модели Janus, выпущенной в прошлом году, которая выполняет преобразование текста в изображение. Компания утверждает, что новая модель Janus-Pro-7B превосходит существующие модели ИИ, такие как DALL-E 3 от OpenAI и Stable Diffusion от Stability AI, в рейтингах лидеров по генерации изображений.

Как и в случае с другими существующими моделями генерации изображений, пользователи могут вводить текст, описывающий фотографию или произведение искусства, и Janus Pro создаст изображение на основе этого ввода. Компания заявила, что Janus Pro обеспечивает возможности генерации и анализа изображений, или компьютерного зрения. Это означает, что пользователи также могут загрузить в модель фотографию с подписью к ней или задать вопросы о том, что «видит модель».

DeepSeek выпускает модель генерации изображений на основе искусственного интеллекта Janus Pro

По словам DeepSeek, для создания Janus Pro была разработана «новая система авторегрессии, которая объединяет мультимодальное понимание и генерацию». Модель устраняет неэффективность, возникшую из-за выделения визуального кодирования в отдельный канал, и использует единый унифицированный преобразователь для обработки. По словам компании, это повышает гибкость платформы.

«Janus превосходит предыдущую унифицированную модель и соответствует или превосходит производительность моделей, ориентированных на конкретные задачи», — заявила компания, представляя модель Janus Pro в своем репозитории HuggingFace. «Простота, высокая гибкость и эффективность делают Janus сильным кандидатом на унифицированные мультимодальные модели следующего поколения».

Модели генерации изображений, такие как Janus, представляют особый интерес для предприятий и маркетинговых фирм, поскольку с их помощью можно создавать реалистичные и сложные изображения, включая лица, объекты и логотипы. Их использование может быть полезным для экономии времени и денег на творческое производство, особенно для генерации изображений в рекламе, блогах, социальных сетях и продуктовых каталогах.

Как и модель генерации текста DeepSeek-R1, компания выпустила Janus-Pro-7B бесплатно и с открытым исходным кодом. Демоверсию модели можно найти на сайте HuggingFace.

Источник: