OpenAI представляет новую флагманскую языковую модель GPT-4o

Рубрики: «Искусственный интеллект (AI)», «Генеративный искусственный интеллект», «Виртуальные помощники», «Чат боты»

14.05.2024

Компания OpenAI выпустила новую флагманскую модель искусственного интеллекта под названием GPT-4o, которая может реагировать в режиме реального времени на ввод текста, аудио и изображений, способствуя более естественному взаимодействию человека с компьютером.

Компания заявляет, что GPT-4o, где буква «o» означает «omni», — это шаг к тому, чтобы общение с моделью искусственного интеллекта было больше похоже на общение или работу с другим человеком. Новая модель может реагировать на голосовые команды в среднем за 320 миллисекунд, что аналогично времени реакции человека. Её производительность при работе с текстом на английском языке соответствует GPT-4 Turbo, но модель значительно лучше работает с языками, отличными от английского.

«Это первый раз, когда мы делаем огромный шаг вперед в том, что касается простоты использования», — сказала Мира Мурати, технический директор OpenAI. «До сих пор для голосового режима у нас было три модели, которые объединялись, чтобы получить это решение. Чтобы обеспечить голосовой режим у нас была транскрипция, интеллект, а затем преобразование текста в речь. Это приводило к большим задержкам, что нарушало погружение в совместную работу с ChatGPT. Теперь, с GPT-4o, все это происходит автоматически».

Новая модель скоро станет доступна пользователям ChatGPT бесплатно, поскольку она будет интегрирована в чат-бот для расширения возможностей его работы. В апреле OpenAI анонсировала версию ChatGPT, доступ к которой пользователи могли получить без учетной записи, а сегодня компания анонсировала настольную версию для macOS для бесплатных и платных пользователей.

В ходе демонстрации новой модели исследователи OpenAI показали на сцене, как она способна вести голосовой разговор в реальном времени, обеспечивая ощущение присутствия на другой линии живого человека с почти мгновенными эмоциональными реакциями. Новая модель включала в свою речь такие эмоции, как смех, ощущение «улыбки», тихие вздохи и другие речевые обороты, которые ассоциируются у людей с говорящим человеком.

Во время демонстрации, ведущие OpenAI попросили модель рассказать сказку на ночь, а затем добавить в сказку драматизма, после чего модель стала говорить более напыщенным и грандиозным тоном. Пока она рассказывала сказку о роботе, ведущие постоянно просили модель изменить тон – вплоть до тех пор, пока ей не сказали прочитать историю «голосом робота» и закончить её «нараспев». Модель каждый раз ловко подчинялась, меняя тон и даже игриво отвечая: «Инициирую драматический голос робота».

Презентация также показала, что модель можно прерывать во время разговора, а это означает, что ей не нужно заканчивать предложение, прежде чем ей можно будет задать новый вопрос. Эта способность делает взаимодействие с моделью более похожим на разговор с человеком, в который иногда необходимо вмешаться, чтобы просто донести свою точку зрения.

Поскольку модель является «мультимодальной», она также способна «видеть» изображения и видео, то есть она может вести разговоры о том, что происходит на экране или через камеру. Чтобы продемонстрировать эту способность, ведущие OpenAI попросили модель понаблюдать за тем, как на листе бумаги записывается математическое уравнение.

Исследователи показали уравнение «3x + 1 = 4» и попросили модель помочь им найти x, но не сообщать ответ. После этого модель научила их решать уравнение, поэтапно находя искомое значение, которое в итоге оказалось равным единице («x = 1»). Во время демонстрации бот ChatGPT проявил себя терпеливым и вдумчивым наставником.

Приложение ChatGPT также можно использовать для помощи в написании кода, и даже если оно не видит того, что происходит на экране, можно скопировать код и отправить его в приложение. После чего разработчик может вслух обсудить код с моделью. Кроме того, можно предоставить модели доступ ко всему экрану целиком, что позволит ей обсуждать контекст экрана.

Еще одно применение GPT-4o в ChatGPT с его многоязычными голосовыми возможностями заключается в том, что чат-бот может работать в качестве переводчика-синхрониста. Модель улучшила качество и скорость работы на 50 различных языках, охватывая 97% населения мира, поэтому пользователь может спросить модель: «Не могли бы вы перевести итальянский на английский и наоборот для меня и моего друга?». Во время демонстрации модель предоставила эту услугу и даже добавила немного индивидуальности, сделав такое заявление, как: «Ваш друг попросил».

Хотя доступ к GPT-4o будет бесплатным, у платных пользователей все равно будет в пять раз больше возможностей, чем у бесплатных. Модель GPT-4o также доступна в интерфейсе прикладного программирования для разработчиков. Она в два раза быстрее, на 50% дешевле и обеспечивает в пять раз более высокую скорость, чем модель GPT-4 Turbo.

Источник: