Международная команда почти из 1000 ученых и специалистов из более чем 500 организаций в 50 странах создала новый тест для проверки искусственного интеллекта(AI) — и ни одна из существующих моделей не смогла пройти его даже наполовину. Тест получил название «Последний экзамен человечества» (Humanity’s Last Exam, HLE) и претендует на роль нового стандарта оценки реальных возможностей AI.
Причина появления HLE — стремительный прогресс языковых моделей. Современные системы ИИ начали набирать почти максимальные баллы в стандартных академических тестах, в частности в широко используемом Massive Multitask Language Understanding (MMLU). Это поставило исследователей перед очевидным вопросом: если модель набирает 90%+ в тесте, означает ли это, что она действительно понимает предмет — или просто научилась распознавать шаблоны?
Вывод оказался неудобным: старые тесты больше не позволяют точно оценить возможности AI. Нужен был экзамен принципиально другого уровня.
2500 вопросов, на которые нет готового ответа в интернете
В финальный экзамен вошло 2 500 вопросов из самых разных областей знаний:
математика и естественные науки;
гуманитарные дисциплины;
древние языки;
узкоспециализированные научные темы.
Каждый вопрос имеет один точный проверяемый ответ. При этом задания были составлены так, чтобы исключить возможность найти решение простым поиском в интернете. Некоторые задачи требуют перевода древних пальмирских надписей, определения мелких анатомических структур птиц или анализа особенностей произношения библейского иврита.
Методология отбора вопросов тоже нетривиальна: разработчики проверяли каждое задание с помощью современных систем AI. Если какая-либо модель давала правильный ответ, вопрос исключали из теста. В финальную версию попали только те задания, с которыми не справилась ни одна из существующих моделей. Всего в ходе отбора было зафиксировано более 70 000 попыток — и около 13 000 вопросов, с которыми модели не справились, перешли на этап экспертной проверки.
Чтобы привлечь к созданию теста ведущих специалистов, организаторы сформировали призовой фонд в $500 000: авторы лучших 50 вопросов получали по $5 000, следующие 500 участников — по $500 каждый.
Когда экзамен прошли ведущие модели искусственного интеллекта, цифры оказались весьма скромными: GPT-4o дал около 2,7% правильных ответов; Claude 3.5 Sonnet — 4,1%; OpenAI o1 — около 8%.
Более новые модели показали несколько лучшие результаты — Gemini 2.5 Pro и Claude Opus 4.6 достигли точности в районе 40–50%. Однако даже этот результат означает, что половина заданий так и не была решена верно.
Отдельного внимания заслуживает то, как именно модели ошибаются. Исследователи измерили не только точность, но и так называемую ошибку калибровки: насколько уверенность модели в ответе соответствует реальной вероятности его правильности. У большинства протестированных систем этот показатель превысил 70% — это означает, что модели раз за разом давали неверные ответы с высокой степенью уверенности, не распознавая границы собственных возможностей.
По словам одного из участников проекта, профессора Тунга Нгуена (Tung Nguyen) из Техасского университета A&M, задача экзамена — не доказать превосходство человека над машиной. «Интеллект — это не только распознавание шаблонов. Важны глубина понимания, контекст и специализированные знания», — отметил он.
Часть вопросов уже опубликована в открытом доступе, однако большинство заданий остаются скрытыми — чтобы модели AI не могли просто выучить ответы. Такой подход призван обеспечить долгосрочную актуальность теста как инструмента измерения реального прогресса.
Разрыв между возможностями AI и уровнем человеческих экспертов по-прежнему велик — и HLE впервые дает исследователям инструмент, позволяющий отслеживать, как этот разрыв сокращается. По мере того как будущие модели будут приближаться к отметке в 80–90%, индустрия получит более четкое представление о том, что именно стоит за понятием «экспертное знание» применительно к искусственному интеллекту.
#AImodel #AI #Write2Earn #BinanceSquare
