OpenAI улучшает возможности генерации изображений ChatGPT

Рубрики: «Искусственный интеллект (AI)», «Генеративный AI (Gen AI)», «Чат-боты»

26.03.2025

Компания OpenAI представила крупное обновление встроенного инструмента генерации изображений чат-бота ChatGPT.

До сих пор эта функция поддерживалась алгоритмом преобразования текста в изображение под названием DALL-E 3 (третья итерация модели), который был представлен в 2023 году. Первоначальная версия модели представляла собой модифицированную версию GPT-3, адаптированную к задачам рендеринга.

В рамках последнего обновления OpenAI переключила инструмент генерации изображений ChatGPT с DALL-E на GPT-4o, который представляет собой мультимодальную большую языковую модель, запущенную в апреле прошлого года. OpenAI утверждает, что обновление значительно улучшит графические возможности дизайна ChatGPT.

Генератор изображений чат-бота теперь может выполнять более сложные задачи. В одном внутреннем тесте инженеры OpenAI попросили ChatGPT визуализировать ранний физический эксперимент, проведенный Исааком Ньютоном, по пропусканию луча света через призму. В ответ чат-бот сгенерировал подробную иллюстрацию с пояснительным текстом.

ChatGPT может настраивать создаваемые изображения на основе инструкций пользователя. После создания иллюстрации эксперимента Ньютона инженеры OpenAI попросили чат-бота наложить рисунок на блокнот. Чат-бот успешно справился с задачей, которая включала в себя как изменение угла наклона иллюстрации, так и добавление сложного фона.

По данным OpenAI, конкурирующие генераторы изображений с искусственным интеллектом с трудом справляются с запросами, в которых им предлагается нарисовать больше, чем несколько объектов. Компания утверждает, что GPT-4o может точно нарисовать до 20 различных объектов, указанных пользователем, включая текст, который модель генерирует более надежно, чем DALL-E 3. При желании пользователи могут снабдить ChatGPT эталонными изображениями. Например, дизайнер интерфейса может загрузить шаблон выпадающего меню и попросить чат-бота внести улучшения.

Еще одним преимуществом обновленного генератора изображений ChatGPT является то, что он может создавать объекты с прозрачным фоном. Прозрачный фон упрощает комбинирование визуальных элементов друг с другом, упрощая такие задачи, как интеграция недавно созданного логотипа в существующий интерфейс приложения.

«Мы обучили наши модели совместному распространению онлайн-изображений и текста, изучая не только то, как изображения соотносятся с языком, но и то, как они соотносятся друг с другом», — написали сотрудники OpenAI в своем блоге.

После начальной фазы обучения для дальнейшего улучшения качества выходных данных чат-бота компания использовала метода «Обучения с подкреплением на основе отзывов людей» или RLHF (Reinforcement Learning from Human Feedback). В проектах обучения с подкреплением процесс обучения модели ИИ координируется второй нейронной сетью. RLHF улучшает эту вторую нейронную сеть, используя обратную связь от экспертов-людей. Улучшения, вносимые экспертами, помогают повысить качество обучаемого искусственного интеллекта.

На момент запуска новый генератор изображений ChatGPT доступен в бесплатной версии, Plus, Pro и Team. В ближайшем будущем OpenAI добавит эту функцию в планы Enterprise и Edu.

Источник: