Google обновляет Gemini новой моделью генерации изображений

Рубрики: «Искусственный интеллект (AI)», «Генеративный AI (Gen AI)», «Интеллектуальные помощники (AI Assistants)», «Чат-боты»

29.08.2024

Компания Google обновляет своего помощника на основе искусственного интеллекта Gemini, добавляя в него новые функции генерации и настройки изображений.

Gemini — это чат-бот, работающий на основе одноименной серии больших языковых моделей. Он может генерировать текст, создавать программный код, решать математические и другие связанные задачи. Gemini доступен как в бесплатной версии, на уровне подписки для клиентов, которая предлагает дополнительные функции, так и в двух платных версиях, ориентированных на организации.

В рамках анонсированного обновления Google оснащает чат-бота новой моделью генерации изображений под названием Imagen 3. По сравнению с предшественником, модель лучше генерирует фотореалистичные изображения и следует длинным, сложным инструкциям пользователя. Если Imagen 3 все же не может сгенерировать изображение в соответствии с предоставленными инструкциями, пользователи могут попросить его внести изменения, введя дополнительную подсказку.

Imagen 3 — это так называемая модель скрытой диффузии. Она не обрабатывает изображения в их исходном виде, а преобразует их в математическую структуру, называемую скрытым пространством. Такие структуры содержат только самые важные данные из файла и отбрасывают остальные. Такая схема эффективно сжимает файлы, которые обрабатывает искусственный интеллект, что позволяет ему анализировать их, используя меньше оборудования и, тем самым, снижая затраты.

В связи с запуском Imagen 3 Google планирует повторно активировать функцию Gemini по генерации изображений людей. Поисковый гигант отключил эту возможность в феврале после того, как пользователи обнаружили, что она генерирует исторически неточные изображения. В то время Google пообещал «значительно» улучшить функцию перед ее повторной активацией.

Новая функция Gemini по созданию изображений людей была оценена с использованием улучшенной версии рабочих процессов тестирования надежности ИИ Google. Кроме того, поисковый гигант оснастил Imagen 3 защитой, призванной не допустить создания моделью вредоносного контента.

«Мы не поддерживаем создание фотореалистичных, узнаваемых лиц, изображений несовершеннолетних или чрезмерно кровавых, жестоких или сексуальных сцен», — написал Дэйв Ситрон, старший директор по управлению продуктами Gemini Experiences. «Конечно, как и в случае с любым генеративным инструментом ИИ, не каждое изображение, создаваемое Gemini, будет идеальным, но мы продолжим прислушиваться к отзывам первых пользователей, продолжая совершенствоваться».

Imagen 3 выпускается вместе с другой новой возможностью Gemini под названием Gems. Последнее дополнение позволяет пользователям создавать индивидуальные версии чат-бота, оптимизированные для определенного набора задач.

Процесс настройки включает предоставление Gemini инструкций, которые определяют, как модель должна генерировать ответы на подсказки. Пользователь может, например, поручить Gemini выводить текст в определенном стиле, а затем сохранить введение как так называемый Gem. При активации Gem гарантирует, что Gemini всегда будет генерировать текст на выходе в запрошенном стиле, что устраняет необходимость вручную повторять запрос с каждым запросом. Google выпускает несколько готовых Gems, которые предназначены для таких задач, как устранение неполадок кода и создание советов по написанию кода. Google также создал более универсальный Gem, способный объяснять сложные темы.

Источник: