Новый сложный тест AGI ставит в тупик большинство моделей ИИ

25.03.2025

Фонд Arc Prize Foundation, некоммерческая организация, соучредителем которой является известный исследователь в области ИИ Франсуа Шолле, объявил о создании нового сложного теста для измерения общего интеллекта ведущих моделей ИИ. Новый тест под названием ARC-AGI-2 поставил в тупик большинство известных моделей.

Согласно рейтинговой таблице фонда Arc Prize, «рассуждающие» модели ИИ, такие как o1-pro от OpenAI и R1 от DeepSeek, набирают на тесте ARC-AGI-2 от 1% до 1,3%. Мощные нерассуждающие модели, включая GPT-4.5, Claude 3.7 Sonnet и Gemini 2.0 Flash, набирают около 1%.

Тесты ARC-AGI состоят из головоломок, в которых ИИ должен идентифицировать визуальные шаблоны из набора разноцветных квадратов и генерировать правильную сетку «ответов». Задачи были разработаны таким образом, чтобы заставить искусственный интеллект адаптироваться к проблемам, с которыми он раньше не сталкивался.

Чтобы установить базовый уровень фонд Arc Prize Foundation провел тест ARC-AGI-2 среди более чем 400 человек. В среднем «группы» этих людей ответили правильно на 60% вопросов теста — намного лучше, чем результаты любой из моделей ИИ.

«Тест ARC-AGI-2 является лучшим показателем реального интеллекта модели ИИ, по сравнению с первой итерацией теста, ARC-AGI-1. Тесты Arc Prize Foundation направлены на оценку того, может ли система ИИ эффективно приобретать новые навыки за пределами данных, на которых она была обучена», - заявил Шолле.

В отличие от ARC-AGI-1, новый тест не позволяет моделям ИИ для поиска решений полагаться на «грубую силу» — большую вычислительную мощность. Ранее это было серьезным недостатком ARC-AGI-1. Для устранения недостатка первого теста ARC-AGI-2 вводит новую метрику: эффективность. Он также требует от моделей интерпретировать шаблоны на лету, а не полагаться на запоминание.

«Интеллект определяется не только способностью решать проблемы или достигать высокие результаты», — написал в своем блоге соучредитель Arc Prize Foundation Грег Камрадт. «Эффективность, с которой эти возможности приобретаются и развертываются, является важнейшим, определяющим компонентом. Основной вопрос заключается не только в том, «Может ли ИИ приобрести [этот] навык для решения задачи?», но и в том, «С какой эффективностью или затратами он может это сделать?»».

Тест ARC-AGI-1 оставался непобедимым примерно пять лет до декабря 2024 года, когда OpenAI выпустила свою усовершенствованную модель рассуждений o3, которая превзошла все другие модели ИИ и сравнялась с человеческими показателями при оценке в тесте. Однако прирост производительности o3 на ARC-AGI-1 сопровождался солидной ценой. Версия модели OpenAI o3 — o3 (low) — первой достигшая новых высот на ARC-AGI-1 и набравшая в тесте 75,7%, получила на ARC-AGI-2 жалкие 4%, при этом используя вычислительную мощность стоимостью 200 долларов на задачу.

Появление ARC-AGI-2 произошло в тот момент, когда многие специалисты в технологической отрасли призывают к новым тестам для измерения прогресса искусственного интеллекта.

Соучредитель Hugging Face Томас Вольф недавно сказал: «В индустрии ИИ не хватает тестов для измерения ключевых черт так называемого общего искусственного интеллекта (AGI), включая креативность».

Наряду с новым бенчмарком фонд Arc Prize Foundation объявил о конкурсе Arc Prize 2025, предлагающем разработчикам достичь точности 85% в тесте ARC-AGI-2, потратив всего 0,42 доллара США на задачу.

Источник: