ChatGPT теперь может говорить, слушать и обрабатывать изображения

Рубрики: «Искусственный интеллект (AI)», «Интеллектуальные помощники (AI Assistants)», «Чат-боты»

26.09.2023

Компания OpenAI сообщила, что ее чат-бот ChatGPT теперь может «видеть, слышать и говорить» или, по крайней мере, понимать произнесенные слова, отвечать синтетическим голосом и обрабатывать изображения.

Последнее обновление чат-бота стало крупнейшим с момента появления GPT-4. Оно позволяет пользователям разговаривать с ChatGPT в мобильном приложении и выбирать один из пяти различных синтетических голосов, которыми будет отвечать чат-бот. C помощью ChatGPT пользователи также смогут обмениваться изображениями и выделять области внимания или анализа для чат-бота.

По словам OpenAI, изменения будут доступны для платных пользователей в течение следующих двух недель. Хотя голосовые функции будут ограничены приложениями iOS и Android, возможности обработки изображений будут доступны на всех платформах.

Большой рывок в развитии функций сопровождается постоянно растущими ставками в гонке в области искусственного интеллекта среди лидеров в создании чат-ботов, таких как OpenAI, Microsoft, Google и Anthropic. Стремясь побудить потребителей внедрить генеративный искусственный интеллект в повседневную жизнь, технологические гиганты создают для чат-ботов не только новые приложения, но и новые функции. Например, компания Google объявила о множестве обновлений своего чат-бота Bard, а Microsoft добавила в Bing визуальный поиск.

Эксперты выразили обеспокоенность по поводу синтетических голосов, генерируемых искусственным интеллектом, которые с одной стороны дают возможность пользователям воспринимать происходящее более естественно, но с другой - позволяют создавать более убедительные дипфейки. Исследователи киберугроз уже начали изучать, как дипфейки могут быть использованы для проникновения в системы кибербезопасности. Компания OpenAI также признала эти опасения и заявила, что ее синтетические голоса не были собраны у незнакомцев, а были «созданы актерами озвучивания, с которыми компания работала напрямую».

В релизе также содержится мало информации о том, как OpenAI будет использовать голосовой ввод пользователей или как компания будет защищать эти данные. В «условиях обслуживания» компании говорится, что потребители владеют своими ресурсами «в той степени, в которой это разрешено действующим законодательством». При этом OpenAI ссылается на свое руководство по голосовому взаимодействию, в котором говорится, что OpenAI не сохраняет аудиозаписи и что сами записи не используются для улучшения моделей ИИ.

Источник: