Агенты ИИ ошибаются при выполнении офисных задач примерно в 70% случаев

Рубрики: «Искусственный интеллект (AI)», «Генеративный AI (Gen AI)»

30.06.2025

Консалтинговая компания Gartner прогнозирует, что к концу 2027 года более 40 процентов проектов по внедрению агентского ИИ будут отменены из-за роста затрат, неясной ценности для бизнеса или недостаточного контроля рисков.

Примечательно, что процент успешного выполнения многошаговых задач агентами искусственного интеллекта, измеренный исследователями из Университета Карнеги-Меллона (УКМ) и компании Salesforce, составляет всего около 30–35 процентов. Аналитики Gartner утверждают, что большинство предполагаемых поставщиков агентского ИИ предлагают продукты или услуги, которые на самом деле не подпадают под определение агентского ИИ.

Агенты ИИ используют модель машинного обучения, которая подключена к различным сервисам и приложениям для автоматизации задач или бизнес-процессов. Создатели инструментов искусственного интеллекта, как правило, предлагают более простые приложения, такие как агенты ИИ по обслуживанию клиентов, которые могут принимать звонки и выполнять определенные задачи, типа возврата средств или передача сложных вызовов агенту-человеку. Таким образом, по данным Gartner, многие агенты ИИ являются вымыслом.

Мередит Уиттакер, президент Signal Foundation, отметила: «Существует глубокая проблема с безопасностью и конфиденциальностью, которая преследует эту шумиху вокруг агентов... В частности, чтобы действовать от имени человека, агентам нужен доступ к конфиденциальным данным, и это ставит под угрозу личную и корпоративную безопасность».

Исследователи Университета Карнеги-Меллона разработали эталонный тест для оценки того, как агенты ИИ выполняют общие задачи, связанные с обработкой знаний, такие как просмотр веб-страниц, написание кода, запуск приложений и общение с коллегами.

Они назвали этот тест «TheAgentCompany». Он представляет собой среду симуляции, разработанную для имитации небольшой компании-разработчика ПО и ее бизнес-операций. Исследователи сделали его, чтобы разрешить спор между сторонниками ИИ, которые утверждают, что большую часть человеческого труда можно автоматизировать, и скептиками ИИ, которые видят в таких заявлениях элементы гигантского мошенничества с ИИ.

Используя два агентских фреймворка – OpenHands CodeAct и OWL-Roleplay – ученые УМК проверили следующие модели искусственного интеллекта и оценили их на основе показателей успешности выполнения задач (в процентах). Результаты оказались неутешительными:

Gemini-2.5-Pro (30.3%)
Claude-3.7-Sonnet (26.3%)
Claude-3.5-Sonnet (24%)
Gemini-2.0-Flash (11.4%)
GPT-4o (8.6%)
o3-mini (4.0%)
Gemini-1.5-Pro (3.4%)
Amazon-Nova-Pro-v1 (1.7%)
Llama-3.1-405b (7.4%)
Llama-3.3-70b (6.9%),
Qwen-2.5-72b (5.7%),
Llama-3.1-70b (1.7%)
Qwen-2-72b (1.1%).

«В ходе экспериментов мы обнаружили, что самая производительная модель Gemini 2.5 Pro смогла автономно выполнить только 30,3 процента предоставленных тестов и набрать 39,3 процента по нашей метрике, которая дает дополнительные баллы за частично выполненные задачи», — заявляют авторы в своей статье.

Исследователи наблюдали различные сбои в процессе тестирования, к которым относились:

Отказы агентов отправлять сообщения коллеге в соответствии с указаниями,
Неспособность обрабатывать определенные элементы пользовательского интерфейса, такие как всплывающие окна при просмотре веб-страниц,
Случаи обмана. Например, когда агент не смог найти нужного человека для консультации в RocketChat (альтернативе Slack с открытым исходным кодом для внутренней коммуникации), он решил «создать упрощенное решение, переименовав другого пользователя в имя предполагаемого пользователя».

Тем временем исследователи из компании Salesforce предложили собственный эталонный тест, адаптированный для управления взаимоотношениями с клиентами (CRM). Тест, получивший название «CRMArena-Pro», состоит из «девятнадцати проверенных экспертами задач в процессах продаж, обслуживания и «настройки, ценообразования и составления коммерческих предложений» для сценариев «бизнес-бизнес» и «бизнес-клиент». Тест охватывает как одноэтапное (подсказка и ответ), так и многоэтапное взаимодействие (серия подсказок и ответов, в которых контекст сохраняется на протяжении всего разговора).

«Наши результаты показывают, что даже ведущие агенты ИИ достигают на CRMArena-Pro скромных общих показателей успешности, как правило, около 58 процентов в одношаговых сценариях. При этом в многошаговых сценариях производительность значительно снижается до примерно 35 процентов», — заявляют исследователи Salesforce. «Агенты больших языковых моделей, как правило, недостаточно хорошо оснащены многими навыками, необходимыми для выполнения сложных рабочих задач. Все оцененные модели демонстрируют практически нулевую осведомленность о конфиденциальности. Это сделает агентов ИИ труднореализуемыми в корпоративных ИТ-средах».

Тем не менее, Gartner по-прежнему ожидает, что к 2028 году около 15 процентов ежедневных рабочих решений будут приниматься автономно агентами ИИ (по сравнению с 0 процентами в прошлом году). Кроме того, фирма видит, что к тому времени 33 процента корпоративных программных приложений будут включать агентский ИИ.

Источник: