ИИ отстает от людей всего на 30% по уровню общего интеллекта в тесте GAIA

Рубрики: «Искусственный интеллект (AI)», «Генеративный AI (Gen AI)»

26.12.2024

Компания H2O.ai, лидер в области генеративного ИИ с открытым исходным кодом и разработчик наиболее точных платформ для прогнозирования, объявила, что её агент h2oGPTe занял 1-е место в рейтинге GAIA (General AI Assistants) с беспрецедентным результатом в 65%.

General AI Assistants (общие помощники ИИ) или GAIA — это передовой бенчмарк, разработанный для оценки производительности систем искусственного интеллекта. Он расширяет возможности ИИ за пределы простой точности, фокусируясь на способности обрабатывать сложные многоуровневые запросы, требующие набора фундаментальных навыков.

В результате тестирования агент h2oGPTe превзошел таких лидеров, как Google Langfun Agent, который набрал 49%, Microsoft Research - 38% и Hugging Face - 33%. Это выдающееся достижение подчеркивает доминирование H2O.ai в развивающейся области универсальных агентов искусственного интеллекта, устанавливая новый золотой стандарт для отрасли.

Тест GAIA показывает, насколько полезны системы искусственного интеллекта для решения реальных задач, требующих от квалифицированных специалистов много времени, размышлений и усилий. Он состоит из сотен вопросов, требующих кропотливых исследований, анализа данных, обработки документов и логических рассуждений. Респонденты-люди, имеющие ученую степень, набирают в нем до 92% баллов, и им требуется несколько человеко-дней, чтобы решить все 300 задач тестового набора.

Агент h2oGPTe превзошел конкурентов, обеспечив стабильную надежность, точность и эффективность, что подчеркивает его готовность к использованию на предприятиях, где многое зависит от квалифицированных помощников-людей.

«Сегодня мы объявляем, что ИИ находится всего в 30% от уровня человеческого общего интеллекта в тесте GAIA. Открытые вопросы в GAIA являются лучшим показателем интеллекта, который опирается на множественный выбор. Чтобы поделиться тем, насколько это волнительно: всего год назад вся экосистема генеративного искусственного интеллекта едва смогла получить десятую часть точности в одном из самых сложных тестов», - сказал Шри Амбати, основатель и генеральный директор H2O.ai.

«Разработчики H2O.ai создали агентный ИИ h2oGPTe, использующий лучшие в мире модели для рассуждений, мультимодальных изображений, видео, понимания языка, генерации и выполнения кода. Это позволило превзойти бенчмарк GAIA с потрясающим скачком точности на 15% по сравнению с предыдущим рекордом, установленным исследователями из Google Deepmind, использующим модель Claude-3.5-Sonnet. Агент h2oGPTe также превзошел на 27% агента Magentic-1 от Microsoft Research, в котором применяется модель o1 от OpenAI», - добавил он.

Успех H2O.ai на тесте GAIA подчеркивает философию простоты и адаптивности:

Расширенные возможности рассуждения и планирования для решения сложных реальных задач
Мультимодальное восприятие текста, изображений и аудио для полного понимания контекста
Интеграция корпоративных инструментов, таких как выполнение Python и DriverlessAI, для предиктивной аналитики и принятия решений

Источник: