Google рассказал о новом искусственном интеллекте для генерации изображений

27.05.2022

Компания Google LLC подробно описала Imagen - систему искусственного интеллекта, которая может автоматически генерировать изображения на основе текстовых подсказок, предоставленных пользователем.

За последние годы исследователи разработали несколько нейронных сетей, способных автоматически генерировать изображения. Одной из самых сложных работ в этой категории является система искусственного интеллекта под названием DALL-E 2, подробно описанная компанией OpenAI LLC в начале этого года. Недавно анонсированная система Imagen от Google может превзойти DALL-E 2, а также другие модели искусственного интеллекта (ИИ) в этой категории.

Imagen включает в себя две отдельные нейронные сети. Первая принимает в качестве входных данных фрагмент текста, который описывает, какое изображение должно быть нарисовано. Нейронная сеть превращает это описание в форму, понятную второй нейронной сети Imagen, отвечающей за отрисовку изображения.

Чтобы создать Imagen, Google использовал ряд ключевых достижений сделанных за последнее десятилетие в исследованиях ИИ.

Первая нейросеть в Imagen, отвечающая за перевод текстового описания в понятный системе вид, — это так называемая модель-трансформер (Transformer model). Модели-трансформеры — это тип алгоритма обработки естественного языка, который был изобретен Google в 2017 году. Они могут понимать смысл текста точнее, чем более ранние алгоритмы.

Чтобы понять значение слов в предложении, модель-трансформер опирается на контекст. Она анализирует текст, окружающий слово, определяет, какие конкретные фрагменты текста больше всего влияют на значение слова, и использует их для принятия решения. Новая система Google Imagen использует модель-трансформер для преобразования описания изображения, предоставленного пользователем, во встраивание - математическое представление данных, понятное нейронным сетям.

После того как описание изображения превращается во встраивание, второй ИИ, интегрированный в Imagen, использует его для рисования соответствующего изображения. Этот второй ИИ представляет собой так называемую диффузионную модель - разновидность нейронной сети, разработанная в 2015 году.

Такие нейронные сети отличаются от других алгоритмов генерации изображений тем, как они обучаются. Для обучения диффузионной модели инженеры сначала снабжают ее изображениями, которые содержат тип ошибки, известный как гауссовский шум. Затем перед диффузионной моделью ставится задача найти способ устранения гауссовского шума.

Для сравнения эффективности алгоритмов генерации изображений исследователи искусственного интеллекта обычно используют набор данных под названием COCO. Google утверждает, что Imagen значительно превзошел конкурирующие системы искусственного интеллекта, включая передовую систему DALL-E 2 от OpenAI, во внутреннем тестировании с использованием COCO. Imagen также удалось превзойти конкурентов в DrawBench - новом бенчмарке, разработанном Google.

Объявление Google об Imagen произошло через несколько недель после того, как поисковый гигант представил PaLM - еще один передовой искусственный интеллект, разработанный его исследователями. Он предназначен для задач обработки естественного языка и имеет 540 миллиардов параметров настроек конфигурации, которые помогают определить, как нейронная сеть принимает решения. По данным Google, при выполнении определенных задач, PaLM может превзойти сложную нейронную сеть GPT-3 от OpenAI.

Источник: