Новый сложный тест AGI ставит в тупик большинство моделей ИИ
Согласно рейтинговой таблице фонда Arc Prize, «рассуждающие» модели ИИ, такие как o1-pro от OpenAI и R1 от DeepSeek, набирают на тесте ARC-AGI-2 от 1% до 1,3%. Мощные нерассуждающие модели, включая GPT-4.5, Claude 3.7 Sonnet и Gemini 2.0 Flash, набирают около 1%.
Тесты ARC-AGI состоят из головоломок, в которых ИИ должен идентифицировать визуальные шаблоны из набора разноцветных квадратов и генерировать правильную сетку «ответов». Задачи были разработаны таким образом, чтобы заставить искусственный интеллект адаптироваться к проблемам, с которыми он раньше не сталкивался.
Чтобы установить базовый уровень фонд Arc Prize Foundation провел тест ARC-AGI-2 среди более чем 400 человек. В среднем «группы» этих людей ответили правильно на 60% вопросов теста — намного лучше, чем результаты любой из моделей ИИ.
«Тест ARC-AGI-2 является лучшим показателем реального интеллекта модели ИИ, по сравнению с первой итерацией теста, ARC-AGI-1. Тесты Arc Prize Foundation направлены на оценку того, может ли система ИИ эффективно приобретать новые навыки за пределами данных, на которых она была обучена», - заявил Шолле.
В отличие от ARC-AGI-1, новый тест не позволяет моделям ИИ для поиска решений полагаться на «грубую силу» — большую вычислительную мощность. Ранее это было серьезным недостатком ARC-AGI-1. Для устранения недостатка первого теста ARC-AGI-2 вводит новую метрику: эффективность. Он также требует от моделей интерпретировать шаблоны на лету, а не полагаться на запоминание.
«Интеллект определяется не только способностью решать проблемы или достигать высокие результаты», — написал в своем блоге соучредитель Arc Prize Foundation Грег Камрадт. «Эффективность, с которой эти возможности приобретаются и развертываются, является важнейшим, определяющим компонентом. Основной вопрос заключается не только в том, «Может ли ИИ приобрести [этот] навык для решения задачи?», но и в том, «С какой эффективностью или затратами он может это сделать?»».
Тест ARC-AGI-1 оставался непобедимым примерно пять лет до декабря 2024 года, когда OpenAI выпустила свою усовершенствованную модель рассуждений o3, которая превзошла все другие модели ИИ и сравнялась с человеческими показателями при оценке в тесте. Однако прирост производительности o3 на ARC-AGI-1 сопровождался солидной ценой. Версия модели OpenAI o3 — o3 (low) — первой достигшая новых высот на ARC-AGI-1 и набравшая в тесте 75,7%, получила на ARC-AGI-2 жалкие 4%, при этом используя вычислительную мощность стоимостью 200 долларов на задачу.
Появление ARC-AGI-2 произошло в тот момент, когда многие специалисты в технологической отрасли призывают к новым тестам для измерения прогресса искусственного интеллекта.
Соучредитель Hugging Face Томас Вольф недавно сказал: «В индустрии ИИ не хватает тестов для измерения ключевых черт так называемого общего искусственного интеллекта (AGI), включая креативность».
Наряду с новым бенчмарком фонд Arc Prize Foundation объявил о конкурсе Arc Prize 2025, предлагающем разработчикам достичь точности 85% в тесте ARC-AGI-2, потратив всего 0,42 доллара США на задачу.