Отличительной особенностью научного подхода является отсутствие веры на слово. Любое утверждение не может считаться фактом, пока не будет установлена его истиннОтличительной особенностью научного подхода является отсутствие веры на слово. Любое утверждение не может считаться фактом, пока не будет установлена его истинн

Последний экзамен человечества: насколько «умен» ИИ?

2026/03/18 13:00
10м. чтение
Для обратной связи или замечаний по поводу данного контента, свяжитесь с нами по адресу [email protected]
_16pakhnjt-58u_1ovnk68peeb0.jpeg

Отличительной особенностью научного подхода является отсутствие веры на слово. Любое утверждение не может считаться фактом, пока не будет установлена его истинность. А для этого необходимо задать множество вопросов, провести множество измерений, тестов, моделирований и т. д. Все, что есть во Вселенной, осязаемое или нет, может быть в той или иной степени измерено. Не исключением являются знания, которые проверяются как в школах, так и в университетах с помощью специально составленных экзаменов. С появлением генеративных ИИ не утихаю дебаты об уровне их знаний и достоверности той информации, которую они выдают на запрос. Те тесты, которые ранее считались показательными, более не могут полноценно оценить ИИ. По этой причине ученые из Техасского университета A&M (Колледж-Стейшен, Техас, США) разработали «Последний экзамен человечества» - всеобъемлющий текст знаний по различным направлениям для ИИ. Из каких вопросов состоял тест, и как себя показали самые популярные генеративные ИИ? Ответы на эти вопросы мы найдем в докладе ученых.

Основа исследования

Возможности больших языковых моделей (LLM от large language model) значительно продвинулись, превзойдя человеческие показатели в самых разных задачах. Для систематического измерения этих возможностей LLM оцениваются на бенчмарках: наборах вопросов, оценивающих производительность моделей в таких задачах, как математика, программирование или биология. Однако современные LLM достигают точности более 90% на популярных бенчмарках, таких как Measuring Massive Multitask Language Understanding (MMLU), которые когда-то считались крайне сложными для LLM. Насыщение существующих бенчмарков, как показано на графике ниже, ограничивает нашу способность точно измерять возможности искусственного интеллекта и требует более сложных оценок, которые могли бы осмысленно оценить быстрое улучшение возможностей LLM.

yvkfr5-qewsyznkl3jpg_rql6t0.png

Изображение №1

Для решения этой задачи ученые создали HLE (от Humanity’s Last Exam, т. е. последний экзамен человечества) — бенчмарк из 2500 сложных вопросов из десятков предметных областей, предназначенный для оценки компетенций в области гуманитарных и естественных наук на экспертном уровне в широком спектре академических дисциплин. HLE разработан учеными и экспертами в предметной области, обеспечивая точную оценку компетенций по мере дальнейшего совершенствования программ подготовки гуманитарных и естественных наук. HLE является многомодальным инструментом, включающим вопросы, представленные либо только в текстовом виде, либо с изображением, и содержит как вопросы с множественным выбором, так и вопросы с точным совпадением для автоматической проверки ответов. Вопросы оригинальны, точны, однозначны и не поддаются простому поиску в интернете или извлечению из баз данных. Среди разнообразия вопросов HLE делает акцент на математических задачах высокого уровня, направленных на проверку глубоких навыков рассуждения, широко применимых в различных академических областях.

Ученые использовали многоэтапный процесс проверки, чтобы тщательно обеспечить сложность и качество вопросов. Перед отправкой каждый вопрос проверялся на соответствие современным требованиям LLM, чтобы подтвердить его сложность — вопросы отклонялись, если LLM могли незамедлительно дать на них правильный ответ. Затем вопросы проходили двухэтапную проверку: (1) первоначальный этап обратной связи с участием нескольких экспертов уровня магистратуры и (2) утверждение организатором и экспертом-рецензентом, гарантирующее качество и соответствие критериям подачи.

Поскольку системы искусственного интеллекта во многих областях приближаются к уровню экспертных знаний человека, точное измерение их возможностей и ограничений имеет важное значение для проведения исследований, управления и информирования широкой общественности. Высокая производительность в HLE будет свидетельствовать о наличии экспертного уровня знаний при решении академических вопросов с закрытым ответом. Для установления общей точки отсчета для оценки этих возможностей и был создан HLE, который должен обеспечить точное измерение, сохраняя при этом закрытый набор тестовых вопросов для оценки потенциального переобучения модели.

Подготовка к экзамену

Набор данных

y_1x6n_vjjupraali-ljwijg7bw.png

Изображение №2

HLE состоит из 2500 сложных вопросов по более чем ста предметам. Краткое описание представлено выше. HLE — это глобальный проект, в котором участвуют около 1000 экспертов из более чем 500 учреждений в 50 странах, в основном профессора, исследователи и обладатели ученых степеней. Примеры разнообразных и сложных вопросов, представленных в HLE, показаны ниже.

tbozsbeq6gaxjqoiuunsl4jjvyw.jpeg

Изображение №3

HLE содержит два формата вопросов: вопросы с точным совпадением (модели выдают ответ) и вопросы с несколькими вариантами ответа (модель выбирает один из пяти или более вариантов ответа). HLE — это многомодальный тест, в котором около 14% вопросов требуют понимания как текста, так и изображения; 24% вопросов — это вопросы с несколькими вариантами ответа, а остальные — вопросы с точным совпадением.

Каждый принятый для тестов вопрос от участников включал в себя несколько обязательных компонентов: сам текст вопроса, описание ответа (либо точное совпадение, либо варианты с несколькими вариантами ответа, при этом правильный ответ отмечен), подробное обоснование решения, академическую специальность, имя автора и принадлежность к учебному заведению для обеспечения подотчетности и точности.

Для обеспечения качества и целостности вопросов были применены строгие критерии подачи. Вопросы должны были быть точными, однозначными, решаемыми и не поддаваться поиску, гарантируя, что модели не могут полагаться на запоминание или простые методы поиска. Все представленные работы должны были быть оригинальными или представлять собой нетривиальный синтез опубликованной информации, хотя материалы неопубликованных исследований также принимались. Вопросы, как правило, требовали экспертных знаний на уровне магистратуры или проверяли знания по узкоспециализированным темам (например, точные исторические детали, любопытные факты и местные обычаи) и имели конкретные, однозначные ответы, принятые экспертами в данной области. В случаях, когда модели LLM предоставляли правильные ответы с ошибочными рассуждениями, авторам рекомендовалось изменять параметры вопроса, такие как количество вариантов ответа, чтобы предотвратить ложные срабатывания. Дополнительным требованием было использование ясного английского языка с точной технической терминологией, с поддержкой нотации LaTeX там, где это необходимо. Ответы должны были быть краткими и легко проверяемыми для вопросов с точным соответствием, чтобы обеспечить автоматическую оценку. Были запрещены открытые вопросы, субъективные интерпретации и контент, связанный с оружием массового уничтожения. Наконец, к каждому вопросу прилагалось подробное решение для проверки правильности ответа.

Проверка вопросов

Для обеспечения сложности вопроса каждый вопрос сначала проверялся на соответствие нескольким передовым LLM перед его использованием в экзамене. Если LLM не могли решить вопрос (или, в случае множественного выбора, если модели в среднем показывают результаты хуже, чем случайное угадывание), вопрос переходил на следующий этап: экспертную оценку. В общей сложности было зарегистрировано более 70000 попыток, в результате чего было получено приблизительно 13000 вопросов, которые поставили в тупик LLM, и которые были переданы на экспертную оценку.

Эксперты имеют высшее образование (например, степень магистра, доктора наук и т.д.) в своей области. Эксперты отбирали работы в своей области, оценивали их по стандартизированным критериям и предоставляли обратную связь, если это необходимо. Процесс рецензирования состоял из двух этапов. Первый этап был направлен на итеративное улучшение представленных работ, при этом каждый вопрос получал от одного до трех отзывов. Основная цель — помочь авторам вопросов (в основном, ученым и исследователям из самых разных дисциплин) лучше формулировать вопросы, которые являются закрытыми, надежными и высококачественными для оценки с помощью ИИ. На втором этапе хорошие и лучшие вопросы из первого этапа выявлялись и утверждались организаторами и экспертами для включения в окончательный набор данных HLE. Ниже схематически показан весь процесс.

kbgbdtq0kem9w2mohgagkv6ocdi.png

Изображение №4

После сбора и анализа данных ученые оценивали окончательный набор данных HLE на дополнительных передовых многомодальных LLM. Была использована стандартизированная системная подсказка, которая структурирует ответы модели в виде явного обоснования с последующим окончательным ответом. Поскольку вопросы и ответы являются точными и закрытыми, использовался o3-mini в качестве критерия для проверки правильности ответа по сравнению с прогнозами модели, учитывая при этом эквивалентные форматы (например, десятичные дроби по сравнению с обыкновенными дробями).

Результаты исследования

m6dgqbi7wjryc4ht_894zxnny24.png

Таблица №1

Все модели продемонстрировали низкую точность ответов на HLE (таблица №1). Эти низкие показатели частично являются результатом самого формата экзамена: при формировании набора данных предпринималась попытка отфильтровать вопросы, на которые существующие модели могут отвечать правильно. Тем не менее при оценке наблюдалась ненулевая точность моделей. Это связано с присущим процессу инференса шумом — модели могут непоследовательно угадывать правильный ответ или, напротив, давать ответы хуже случайного выбора в вопросах с множественным выбором.

Также наблюдалась более высокая точность на вопросах с множественным выбором по сравнению с вопросами с точным ответом. Ученые решили оставить такие вопросы в наборе данных как естественную составляющую, а не проводить жесткую адверсариальную фильтрацию. Однако следует подчеркнуть, что истинная нижняя граница возможностей передовых моделей на данном наборе данных остается открытым вопросом, и небольшие колебания точности вблизи нуля не являются надежным индикатором прогресса.

Учитывая низкую производительность на HLE, необходима калибровка моделей, которая будет учитывать их неопределенность, нежели выдачу неверного ответа со 100% уверенностью. Для изменения калибровки ученые предложили моделям давать не только ответы, но и свою уверенность в нем от 0% до 100%. Заявленная уверенность хорошо откалиброванной модели должна соответствовать ее фактической точности, например, достижение 50% точности на вопросах, в которых она заявляет о 50% уверенности. Из данных таблицы №1 видно, что модели демонстрировали высокую степень уверенности при неправильных ответах.

xfeggbjyjw3tm_wfcr0rr5oim2a.png

Изображение №5

Модели рассуждения разработаны так, чтобы тратить дополнительные вычислительные ресурсы на «размышление» перед выдачей ответа: они генерируют промежуточные токены рассуждения, а затем формируют окончательный ответ. Это означает, что во время инференса необходимо декодировать значительно больше токенов. Чтобы прояснить этот аспект, было проанализировано вычислительно затратное масштабирование числа выходных токенов (включая токены рассуждения) для нескольких современных моделей рассуждения (график выше). Разбивая длину выходной последовательности на интервалы по шкале log2, наблюдалась лог-линейная зависимость точности от числа токенов рассуждения. Однако после 214 токенов эта тенденция менялась на противоположную, что показывает: большие затраты на рассуждение не всегда являются оптимальным путем. Факт того, что прирост точности снижается после определенного порога говорит о том, что будущие модели должны не только усовершенствовать свою базовую точность, но и свою вычислительную эффективность.

Для более детального ознакомления с нюансами исследования рекомендую заглянуть в доклад ученых и дополнительные материалы к нему.

Эпилог

В рассмотренном нами сегодня труде ученые создали масштабный тест, состоящий из 2500 вопросов из самых разных отраслей наук, который должен был проверить точность ответов больших языковых моделей. В создании теста принимали участие ученые со всего мира. Вопросы, вошедшие в тест, не были тривиальными и не поддавались банальному поиску ответов в сети. Они проверяли знания в крайне специфических направлениях, требующих глубокого понимания темы.

Результаты тестирования были ожидаемо плохими. Модели ИИ показали крайне низкий результат верности ответов. Даже мощные модели ИИ испытывали трудности с этим экзаменом. GPT-4o показал результат в 2.7%, а Claude 3.5 Sonnet — 4.1%. Модель o1 от OpenAI показала несколько лучшие результаты — 8%. Самые мощные системы на данный момент, включая Gemini 3.1 Pro и Claude Opus 4.6, достигли уровня точности от 40% до 50%. Однако куда более значимое наблюдение заключается в том, что модели давали неверные ответы со стопроцентной уверенности, что они верные.

По словам авторов теста, названного ими «последний экзамен человечества», он нацелен не только на определение сильных и слабых сторон ИИ, но и на демонстрацию того, что наличие знаний не можно считать эквивалентом пониманию. Также это исследование показало, что ИИ, несмотря на свое присутствие практически во всех сферах жизни современного человека, не может его заменить. Термин «искусственный интеллект», который часто применяется для описания таких систем как GPT или Claude, в данном случае является не более чем словосочетанием. GPT, Claude и другие подобные системы — это не более чем массивный цифровой «пылесос», поглощающий информацию со всех уголков интернета с (а часто и без) разрешения первичного владельца информации. По нажатию кнопки этот пылесос просто «выплевывает» информацию, которую считает максимально приближенной по точности к заданному вопросу. Даже размышления, которые некоторые модели могут проводить, являются не более чем копией размышлений человека, которые они подхватили во время сбора данных. Утрированного говоря, большие языковые модели обладают огромной базой знаний, но не имеют ни малейшего понимания что они значат. Глубокие рассуждения, рассмотрение задачи под нестандартным углом, творческий процесс и многое другое, что присуще человеку, пока является чем-то далеким для больших языковых моделей. ИИ не является чем-то неисправимо зловредным, но может таковым быть в руках тех, чья основная цель заключается не в улучшении качества жизни людей, а в увеличении прибыли.

Немного рекламы

Спасибо, что остаетесь с нами. Вам нравятся наши статьи? Хотите видеть больше интересных материалов? Поддержите нас, оформив заказ или порекомендовав знакомым, облачные VPS для разработчиков от $4.99, уникальный аналог entry-level серверов, который был придуман нами для Вас: Вся правда о VPS (KVM) E5-2697 v3 (6 Cores) 10GB DDR4 480GB SSD 1Gbps от $19 или как правильно делить сервер? (доступны варианты с RAID1 и RAID10, до 24 ядер и до 40GB DDR4).

Dell R730xd в 2 раза дешевле в дата-центре Maincubes Tier IV в Амстердаме? Только у нас 2 х Intel TetraDeca-Core Xeon 2x E5-2697v3 2.6GHz 14C 64GB DDR4 4x960GB SSD 1Gbps 100 ТВ от $199 в Нидерландах! Dell R420 - 2x E5-2430 2.2Ghz 6C 128GB DDR3 2x960GB SSD 1Gbps 100TB - от $99! Читайте о том Как построить инфраструктуру корп. класса c применением серверов Dell R730xd Е5-2650 v4 стоимостью 9000 евро за копейки?

Источник

Отказ от ответственности: Статьи, размещенные на этом веб-сайте, взяты из общедоступных источников и предоставляются исключительно в информационных целях. Они не обязательно отражают точку зрения MEXC. Все права принадлежат первоисточникам. Если вы считаете, что какой-либо контент нарушает права третьих лиц, пожалуйста, обратитесь по адресу [email protected] для его удаления. MEXC не дает никаких гарантий в отношении точности, полноты или своевременности контента и не несет ответственности за любые действия, предпринятые на основе предоставленной информации. Контент не является финансовой, юридической или иной профессиональной консультацией и не должен рассматриваться как рекомендация или одобрение со стороны MEXC.

Цены на криптовалюту