Stability AI выпускает следующее поколение моделей ИИ Stable Diffusion 3.5

23.10.2024

Стартап по разработке генеративного искусственного интеллекта Stability AI объявил о выпуске нового поколения Stable Diffusion 3.5, которое включает в себя три модели искусственного интеллекта с открытым исходным кодом для преобразования текста в изображение.

«В июне мы выпустили Stable Diffusion 3 Medium - первый открытый релиз из этой серии. Однако он не полностью соответствовал нашим стандартам или ожиданиям», — заявила компания в своем объявлении. «Выслушав ценные отзывы сообщества мы уделили время дальнейшей разработке, которая способствует реализации нашей миссии по преобразованию визуальных медиа».

В этом релизе представлены три модели ИИ для решения различных задач, разработанные с повышенным уровнем настройки в локальных и облачных средах:

Diffusion 3.5 Large - это модель с 8 миллиардами параметров, разработанная для быстрой настройки и получения высококачественных изображений. Она основана на стандартном семействе Stable Diffusion. Компания заявила, что модель идеально подходит для профессиональных пользователей, которым нужна графика с разрешением 1 мегапиксель. Large подходит для создания ярких изображений и цифровых ресурсов для маркетинговых кампаний и других подобных случаев корпоративного использования.
Diffusion 3.5 Large Turbo — это оптимизированная версия 3.5 Large, которая всего за четыре шага создает высококачественные изображения, сохраняя при этом исключительное соответствие подсказкам, что делает ее намного быстрее оригинальной версии. Модель разработана для быстрого создания изображений без потери качества, что делает ее отличным выбором для рабочих процессов с быстрой генерацией. Stability AI заявила, что для своего размера модель Turbo предлагает самое быстрое время создания изображений в отрасли, оставаясь конкурентоспособной по качеству и соблюдению следования подсказкам.
Diffusion 3.5 Medium имеет 2,6 миллиарда параметров, и Stability AI заявила, что построила улучшенную архитектуру и метод обучения, чтобы обеспечить баланс между качеством и настройкой. Модель способна эффективно создавать изображения с разрешением от 0,25 до 2 мегапикселей и оптимизирована для работы на стандартном потребительском оборудовании.

Компания заявила, что при разработке моделей она использовала нормализацию ключа запроса (Query-Key Normalization) в преобразователях ИИ, чтобы помочь расставить приоритеты и упростить тонкую настройку. Благодаря этому разработчикам будет проще настраивать свою модель, маркируя входные данные. Это также означает, что модель будет лучше придерживаться определенных подсказок естественного языка. В то же время подсказки, не имеющие конкретной формулировки, с большей вероятностью будут производить более широкий диапазон выходных изображений.

«Чтобы поддержать этот уровень гибкости нам пришлось пойти на некоторые компромиссы», — заявила компания. «Из одного и того же запроса с разными начальными значениями могут возникнуть большие вариации в выходных данных, что сделано намеренно, поскольку это помогает сохранить более широкую базу знаний и разнообразные стили в базовых моделях. Однако в результате запросы, не имеющие конкретики, могут привести к повышенной неопределенности в выходных данных, а эстетический уровень полученных изображений может сильно различаться».

Stability AI заявила, что Stable Diffusion Medium 3.5 станет доступна 29 октября. Все модели имеют открытый исходный код и доступны по лицензии сообщества Stability AI, бесплатной для некоммерческого использования и коммерческого использования с годовым доходом до 1 миллиона долларов США, после чего компании должны запросить корпоративную лицензию.

Источник: