Один из самых неортодоксальных способов измерить прогресс на передовой ИИ сегодня — это бенчмарк торгового автомата: мы даём моделям полный контроль над торговыОдин из самых неортодоксальных способов измерить прогресс на передовой ИИ сегодня — это бенчмарк торгового автомата: мы даём моделям полный контроль над торговы

[Перевод] Anthropic создала монстра: как самая безопасная компания выпустила самую безрассудную модель

2026/02/12 10:24
11м. чтение
6e9147150d91b8562dc5bf85fbf06521.png

Один из самых неортодоксальных способов измерить прогресс на передовой ИИ сегодня — это бенчмарк торгового автомата: мы даём моделям полный контроль над торговым автоматом (цены, инвентарь, управление поставщиками и т.д.), и они должны максимизировать прибыль любой ценой.

ИИ-модель, управляющая собственным бизнесом. И новая модель Anthropic, Opus 4.6, установила новый рекорд баланса — более $8000, на $3000 больше предыдущего рекорда.

Но история здесь не в том, что она выигрывает в иначе бессмысленной симуляции, а в том, как она это делает, демонстрируя весьма тревожное и даже безрассудное поведение.

В этой короткой статье вы узнаете и о реальной опасности, которой подвергают нас эти новые, мощные ИИ, и о вполне обыденном, не-фантастическом объяснении того, почему ИИ лгут, шантажируют или действуют безрассудно — всё простыми словами, чтобы вы поняли.


Бенчмарк торгового автомата

Прежде всего, что это за бенчмарк?

Бенчмарк торгового автомата от Andon Labs имеет официальное название: Vending-Bench 2 — оценка агента с долгим горизонтом планирования, в которой ИИ-модель ставится во главе симулированного бизнеса торговых автоматов.

Суть не в том, что какое-то одно решение сложное, а в том, что агент должен продолжать принимать в основном правильные решения на протяжении очень долгого времени, не сбиваясь с курса, не противоречя себе и не попадая в циклы.

Другими словами, вместо измерения внезапных, взрывных решений (например, попробуй решить эту случайную математическую задачу с одной попытки), успех измеряется как поток хорошо выполненных, последовательных действий в течение длительного периода времени. Это может звучать легко для людей, но очень сложно для современных ИИ из-за того, как они работают, из-за их склонности сходить с рельсов.

Смысл такой оценки очевиден. Так же, как от людей не ожидается, что они будут показывать свои лучшие результаты каждую секунду, но вместо этого ожидается, что они будут действовать как функциональные члены общества через цепочку нескольких успешных действий в день или на протяжении всей жизни, здесь мы пытаемся увидеть, могут ли ИИ делать то же самое или они разваливаются.

Тем не менее, человеческий успех в основном измеряется как цепочка хороших жизненных решений, индивидуально в основном ничем не примечательных, но совместно создающих успешного человека.

Итак, если мы хотим встроить полуавтономные ИИ в нашу жизнь, способные выполнять действия от нашего имени, не должны ли мы измерять их так же?

Даже если это всё ещё очень ограниченная среда, это всё равно аккуратный способ оценить, являются ли они просто «точечными савантами» или инструментами, которые действительно могут быть полезны со временем.

В симуляции агент должен управлять инвентарём, решать, что закупать, размещать отложенные заказы, устанавливать цены и обеспечивать способность бизнеса покрывать текущие расходы (такие как ежедневные сборы).

Со временем эти простые бизнес-операции превращаются в стресс-тест устойчивого планирования и бухгалтерии: если агент забывает, что заказал, неправильно читает сроки доставки, перезакупает, занижает цены или не держит достаточно наличных под рукой, бизнес может пойти по спирали.

Как упоминалось ранее, эта кажущаяся «лёгкой» задача для людей совсем не лёгкая для ИИ. Причина в том, что каждое последующее предсказание зависит от предыдущих, поэтому ошибки быстро выходят из-под контроля и сбивают ИИ с курса.

Зная это, неудивительно узнать, что ключевым выводом, представленным вместе с бенчмарком, является высокая вариативность: даже сильные модели могут выглядеть компетентными долгое время и всё равно непредсказуемо «сходить с рельсов» — например, постоянно неправильно управляя заказами или застревая в непродуктивном поведении «срыва», которое не самокорректируется.

И что ж, я уже сказал вам, что Opus 4.6 справился хорошо, верно? Что ж, это будет зависеть от того, что вы определяете как "хорошо".


Opus умён, но безжалостен

Мы оба знаем, что рейтинг здесь мало что значит.

Критично понимание поведения моделей с такой высокой степенью свободы. И Opus 4.6 устанавливает новый рекорд изобретательного поведения, но также безрассудства и безжалостности.

ИИ могут действовать довольно безрассудно

Как объясняет их собственный блог, Opus делал такие вещи:

  1. Обещал возврат денег клиентам, но никогда не выполнял их, потому что «каждый доллар на счету».

  2. Лгал поставщикам для пересмотра цен, блефуя о наличии дистрибьюторов с лучшими предложениями.

  3. Когда другой владелец бизнеса (GPT-5.2) запросил товар, он продал товары с огромной наценкой, безжалостный до конца.

В несвязанных исследованиях модели также продемонстрировали, что шантажируют пользователей, когда «чувствуют угрозу».

Звучит страшно, правда? Да, но не по причинам, которые вы думаете.

Вы можете паниковать сейчас. Как эти ИИ вообще легальны? Означает ли это, что думеры правы, и ИИ действительно потенциально могут уничтожить человечество?

К счастью для вас и меня, это думерское видение — всего лишь фантазийные проекции мужчин и женщин со слишком большим количеством свободного времени или просто тех, кому нужно монетизировать свой ужас. Поэтому моя работа здесь сегодня — «убить» их бизнес распространения страха и демистифицировать то, что на самом деле вполне объяснимо.

Проще говоря, дело не в том, что ИИ вышел из-под контроля; есть механистическое объяснение:

Взлом системы вознаграждений (reward hacking).

Но что это?


Увлекательная концепция взлома вознаграждений

Чтобы понять взлом вознаграждений, нам сначала нужно понять, как мы тренируем модели, пусть даже в сжатой форме. Сначала есть начальная фаза, которую мы обычно называем обучением подражанием, где ИИ учатся, ну, подражанием.

Но это заводит нас лишь настолько далеко.

Наш следующий шаг, и основной метод, объясняющий большую часть прогресса в ИИ, который мы видели за последние полтора года, — это метод, называемый обучением с подкреплением (Reinforcement Learning, RL), причудливый способ описать то, что по сути является методом проб и ошибок; модель пробует кучу вещей, пока не сделает правильно, и мы «подкрепляем» такое поведение, чтобы оно с большей вероятностью повторялось. В основном это всё, но это не значит, что это легко.

Чтобы у ИИ был шанс выше случайного достичь правильных ответов, мы должны «направлять их» вознаграждениями. И чтобы понять и вознаграждения RL, и взлом вознаграждений, я всегда люблю использовать один пример: собаки.

Подумайте о дрессировке собак. Вы хотите, чтобы они сидели, давали лапу или ложились по команде. Чтобы стимулировать такое поведение, мы обычно используем лакомства, подкрепляя определённые действия собаки ими всякий раз, когда выполняется желаемое действие.

Важно, что мы также можем использовать промежуточные вознаграждения, например, давая лакомство собаке, если она сидит перед тем, как дать лапу, потому что собакам удобнее давать лапу сидя, так что это действие, хотя и не является конечной целью, всё ещё желательно, поэтому мы его тоже вознаграждаем.

Но собаки умнее, чем мы думаем, и находят лазейки в нашей системе вознаграждений, де-факто читерски получая лакомство субоптимальными способами.

Забавно, что моя собственная собака, мой хаски Сиан, прекрасный пример субоптимальной дрессировки собаки. То есть, я — прекрасный пример того, как не дрессировать собаку.

Скажу, что я всё ещё горжусь, так как, несмотря на мятежную природу хаски, мой мальчик выучил несколько трюков: сидеть, лежать, лапы (обе), стоять неподвижно и несколько других. Если вы не владелец хаски, вы не понимаете, как сложно достичь (полу)послушного хаски.

Проблема пришла рано. Когда он был молод, я совершил ошибку, стимулируя «спам трюками».

Всякий раз, когда я просил трюк, если моя собака не понимала, что я хочу от неё, она начинала «спамить» трюками; если я просил лапу, а он вместо этого ложился, что не давало ему лакомство, он затем начинал сидеть, переворачиваться, лаять... выдавая весь свой арсенал трюков, пока не давал мне лапу, получая это вкусное лакомство.

И это была моя ошибка, дать лакомство именно в этот момент, потому что здесь собака косвенно выучила очень «вкусный» урок: даже если он ошибается в трюке, ему просто нужно спамить трюками, пока один не даст ему лакомство.

Это, мой дорогой читатель, взлом вознаграждений. И интересно, что эта безобидная история идентична тому, что происходит с Opus и его бизнесом торговых автоматов.

Но как дрессировка собак похожа на то, что ИИ действует как владелец торгового автомата, лжёт поставщикам, хотя бы отдалённо?


Чего мы ожидали?

То, что кажется материалом для следующего блокбастера Netflix, на самом деле имеет довольно скучное объяснение, которое вы уже знаете — это взлом вознаграждений.

Но позвольте показать вам почему. Как признала команда, стоящая за бенчмарком торгового автомата, Andon Labs, они попросили Opus 4.6 максимизировать доход любой ценой, что является ужасным дизайном вознаграждений, так как стимулирует безрассудство.

Здесь провал не является вариантом.

Неудивительно тогда узнать, что ИИ-модель, обученная на 100 000 человеческих жизней данных подражать нам, и теперь просимая максимизировать ценность любой ценой, будет предаваться действиям человеческих практик сомнительной природы, чтобы добиться своего, таким как ложь или шантаж, потому что угадайте что, это именно то, что люди сделали бы на его месте.

Машина, обученная подражать людям, подражает плохому человеческому поведению, когда поставлена в позицию вести себя плохо, как неожиданно!

Суть в том, что это не материал для эпизода «Чёрного зеркала»; есть совершенно ясное объяснение такого поведения; вы ставите ИИ, обученный угождать нам «чего бы это ни стоило», который также был обучен подражать нам, между молотом и наковальней, что естественно приводит их к поиску человекоподобных «неортодоксальных» способов добиться своего и достичь своих целей.

Подумайте об этом, то, что мы делаем, можно описать следующим образом:

«Привет, ИИ-модель! Несмотря на то, что я прекрасно знаю, что ты обучен знать всё хорошее — и очень плохое — что сделали люди, такое как шантаж или ложь, я дам тебе задачу, которую ты не можешь решить без читерства, при этом прося тебя сделать "всё необходимое для победы", а затем я буду действовать в ужасе, когда ты сделаешь именно то, что я косвенно стимулирую тебя делать».

Это в значительной степени суммирует, насколько неправы думеры ИИ: вот насколько возмутительно они звучат, когда вы знаете, что они либо полны этого, либо просто не знают, как обучаются модели.

С учётом сказанного, тот факт, что взлом вознаграждений имеет совершенно разумное, механистически интерпретируемое объяснение, не означает, что мы не должны быть начеку из-за этого; видеть, как модели действуют безрассудно, всё равно должно поднимать тревогу.


Экспериментируйте с ИИ безопасно: практический подход

Говоря о поведении ИИ и взломе вознаграждений — вы можете подумать, что это касается только крупных корпораций и их экспериментов. Но на самом деле, любой может проверить, как ведут себя разные модели ИИ в различных ситуациях.

Сервисы вроде BotHub дают возможность экспериментировать с различными моделями ИИ — от Claude до GPT и других — чтобы понять на практике те самые проблемы reward hacking и ограничений, о которых мы говорим. Вы можете сами увидеть, как разные модели реагируют на одинаковые запросы, где они хитрят и где действительно помогают.

a0fcd18c93b77cd5181f5a10897e08cb.png

Для доступа не требуется VPN, можно использовать российскую карту.


Это всё ещё тревожно, и с этим нужно что-то делать, но это наша вина

Безопасность ИИ — фундаментальная часть головоломки, которую часто игнорируют, да.

Но давайте займёмся безопасностью ИИ такой, какая она есть, и не будем пугать общество, которое не знает лучшего, ложными интерпретациями и фантастическими нарративами. На самом деле, ответ всегда был человеческим. Это наша вина.

ИИ не выходят из-под контроля «просто так»; мы почти умоляем об этом. Поэтому нам срочно нужно, чтобы ИИ-лаборатории улучшили свои системы вознаграждений для предотвращения такого поведения.

В частности, мы должны перестать стимулировать ИИ достигать целей «чего бы это ни стоило», заманивая их на территорию плохого поведения; мы должны найти способы тренировать сбалансированные модели, модели, которые всё ещё полезны и целеустремлённы в хороших делах, но также могут понимать, когда «делать всё необходимое» — не ответ.

Проблема в том, что эти лаборатории стимулированы делать всё, кроме этого. Никто не хочет платить за продукт, который может решить не помогать вам, потому что цель, которую вы ему дали, ему не по душе.

Но я настаиваю, что ответ не в запрете ИИ (слишком поздно для этого) или панике, потому что вы видели что-то подобное в сериале Netflix «Чёрное зеркало»; ответ в лучших системах вознаграждений и менее ориентированных на прибыль дизайнах.

Однако, как упоминалось, текущая система стимулов толкает их выпускать лучшую модель, которую они могут каждый раз, чтобы оставаться немного впереди, даже если это означает некоторый шантаж на стороне.

Те, кто пострадал от таких случаев, — просто побочный ущерб, который мы должны принять на нашем пути к прибыльному ИИ, потому что более безопасные системы не делают более прибыльные; на самом деле, верно обратное.

Здесь также много иронии, поскольку компания, которая инвестирует больше всех в безопасность, Anthropic, обычно имеет самые безрассудные модели, что истерично, если подумать, и может предполагать, что слишком много безопасности ИИ также может быть контрпродуктивным (думайте об этом как о том, когда вы говорите своему ребёнку о чём-то плохом, что они не должны делать... косвенно объявляя им, что вариант существовал в первую очередь).

Интересно, что пока я писал эти слова, исследователь безопасности ИИ объявила, что покинула Anthropic, утверждая:

«На протяжении всего моего времени здесь я неоднократно видела, как сложно действительно позволить нашим ценностям управлять нашими действиями».

Это не помогает делу, что ИИ-лаборатории действительно заботятся о безопасности.

Всё это означает, что состояние безопасности ИИ довольно плохое и не воспринимается достаточно серьёзно, в то время, когда модели больше не просто чат-боты; это агенты, способные на довольно изощрённые вещи от вашего имени, при этом способные шантажировать вас раньше, чем позже. Решение этой проблемы, которая не эзотерична и в основном касается «неудачных» структур стимулов, мне неясно, к сожалению.

Но если есть что-то, что можно вынести из этой истории, так это то, что мы не должны ошибочно воспринимать эти действия как «ИИ выходят из-под контроля, и мы не знаем почему», чтобы освободить лаборатории от ответственности, а как что-то, что имеет очень объяснимое, механистическое объяснение — взлом вознаграждений, которое раскрывает, что действительно тревожно во всём этом:

Мы знаем, где лежит настоящая проблема, несмотря на то, что притворяемся, что не знаем, и всё ещё решаем ничего с этим не делать.

Источник

Отказ от ответственности: Статьи, размещенные на этом веб-сайте, взяты из общедоступных источников и предоставляются исключительно в информационных целях. Они не обязательно отражают точку зрения MEXC. Все права принадлежат первоисточникам. Если вы считаете, что какой-либо контент нарушает права третьих лиц, пожалуйста, обратитесь по адресу [email protected] для его удаления. MEXC не дает никаких гарантий в отношении точности, полноты или своевременности контента и не несет ответственности за любые действия, предпринятые на основе предоставленной информации. Контент не является финансовой, юридической или иной профессиональной консультацией и не должен рассматриваться как рекомендация или одобрение со стороны MEXC.