Раз в полгода Anthropic балует программистское сообщество новыми большими языковыми моделями. В мае 2025 года вышла модель Opus 4, которая сильно улучшила качесРаз в полгода Anthropic балует программистское сообщество новыми большими языковыми моделями. В мае 2025 года вышла модель Opus 4, которая сильно улучшила качес

Вот за счёт чего Opus 4.6 улучшил свои бенчмарки

2026/02/07 15:17
8м. чтение

Раз в полгода Anthropic балует программистское сообщество новыми большими языковыми моделями. В мае 2025 года вышла модель Opus 4, которая сильно улучшила качество генерируемого кода, а в ноябре — Opus 4.5, основное внимание в которой было уделено способности модели работать с внешним тулингом (MCP, Skills...). Кажется, я что-то пропустил. Ну конечно — Opus 4.1, вышедшая в августе 2025 года, которая запомнилась... небольшими улучшениями в 2–3% на синтетических тестах. Всё логично: именно поэтому это был минорный релиз с небольшим анонсом в блоге. Но в эпоху AI любой «дроп» новой модели — это событие мирового масштаба, и неважно, сколько ты добавил цифр после точки.

Поняв это с Opus 4.1, Anthropic решила выпустить Opus 4.6 «по-настоящему», предложив партнёрам ранние беты, собрав публичные отзывы, подготовив полноценный анонс и раздав bounty в $50 на Opus 4.6 пользователям платных подписок. Но по факту мы имеем минорный релиз без, кажется, серьёзных улучшений для программистов. Так ли это — давайте разбираться.

Adaptive thinking

Начиная с Opus 4.6, модель проходит тесты в режиме adaptive thinking. Давайте разберёмся, что это значит для разработчика.

Раньше глубину размышлений можно было задавать ключевыми словами think, hardthink, ultrathink: по сути пользователь сам решал, насколько усердно модель должна «думать» над задачей. Довольно быстро в Anthropic заметили, что несмотря на ужесточение ценовой политики, подписчики для большинства запросов либо используют ultrathink, либо не указывают глубину вовсе. В итоге в Claude Code эти ключевые слова просто перестали работать: при их обнаружении интерфейс сообщает, что всегда установлен максимальный уровень, и подсказки больше не влияют на поведение модели.

Что же изменилось с приходом adaptive thinking? В этом режиме мы указываем уровень размышлений, который должна применять модель при решении задачи. Доступные уровни: low, medium, high (default), max. Они определяют глубину размышлений и их необходимость. В результате для простых задач модель может полностью исключить этап «обдумывания»; вероятность этого снижается с повышением уровня. На практике это значит, что на уровне high модель всегда «думает», включая иногда «глубокое обдумывание», а на уровне max — думает без ограничения по глубине. Таким образом, модель быстро приступит к исполнению задачи только на уровне low; в остальных случаях модель всегда старается думать. Тогда зачем это всё?

На мой взгляд, основную проблему, которую Anthropic пытается решить, — это снижение количества потребляемых токенов, а значит, и требующихся мощностей. Ведь основной пользователь Opus — это подписчики плана Max, которые редко выбирают предоставленные им лимиты, а значит, любое снижение потребляемых токенов в рамках этих подписок — прямая выгода Anthropic. К тому же есть ощущение, что в Claude Code модель появится с уровнем по умолчанию medium, а то, что она там появится, — это только вопрос времени.

Но вернёмся к тестам: использование adaptive thinking с установленным уровнем high всё же должно лучше соотносить результаты синтетических тестов и ощущения реальных пользователей. Но, к сожалению, в первом же тесте SWE-bench Anthropic выкручивает все «рычаги» на максимум (что не сделаешь ради демонстрации высоких показателей на графиках). В итоге модель думает без ограничения по глубине, а качество генерации и набранные в тесте баллы недостижимы (по финансовым соображениям) для простых смертных.

Но, как всегда, нас спасают инструменты (MCP, Skills), важность использования которых подтверждают и в Anthropic. Обязав модель использовать инструменты, можно получить улучшение качества (и снижение потребления токенов).

Что неслучайно, поскольку модели от Anthropic хорошо зарекомендовали себя в работе с внешним тулингом (MCP, Skills), что подтверждается бенчмарком MCP-Atlas, где Opus, начиная с 4.5, показывает стабильно хорошие результаты. Правда, прочитавшим анонс может показаться, что в Opus 4.6 стало хуже (62.3% → 59.5%), но в реальной практике применения adaptive thinking пользователи этого могут не заметить, поскольку, как пишут в Anthropic, при уменьшении effort модель набирает сравнимые с 4.5 результаты.

1M контекст

Ещё с версии Opus 4.5 Anthropic начали работы по увеличению размера доступного контекста. Это, конечно, хорошо, но насколько эта проблема остро стоит при решении задач программирования? Ведь с увеличением доступного контекста увеличивается и уровень «забывчивости» модели. В каких же ситуациях мы сталкиваемся с проблемой размера контекста?

  1. Вайбкодинг. Мы подготовили спецификацию будущей системы или фичи и просим AI-агента её реализовать. В такой ситуации мы действительно можем упереться в ограничение контекста, но эта проблема уже закрывается практиками, когда мы сначала строим верхнеуровневый план из задач по спецификации, а после реализуем каждую задачу в отдельном чате/контексте.

  2. Последовательное программирование. Так я называю ситуацию, когда разработчик использует AI-агента для разработки некоторой фичи, последовательно отдаёт команды в чате, добиваясь нужного результата. При этом разработчик продолжает ревьюить весь написанный AI-агентом код, но сам код не пишет. В такой ситуации действительно можно столкнуться с ограничением размера контекста — спрашивается, почему не создать новый чат? В ответ можно услышать, что тогда AI-агенту придётся заново формировать контекст — это долго, дорого и что-то обязательно забудется.

Эти проблемы действительно существуют и отчасти решаются использованием внешнего тулинга, например добавлением к агенту MCP, за один вызов которого можно сформировать весь необходимый контекст с описанием проекта. Однако часть важных обсуждений потерять действительно возможно, и именно её должен решить контекст большего размера. Но основная проблема работы с большими контекстами, как я уже упоминал, — это «выпадание» части контекста из «поля зрения» AI. Это подтверждается тестами OpenAI MRCR v2.

8c587a9b7a9f9477ffb061aec10699bb.png

Как видно из графика, при увеличении контекста качество Claude Opus 4.6 падает с 93.0% (для 256k) до 76.0% (для 1M). При этом удивительные результаты показывает Claude Sonnet 4.5: его показатели в тесте выросли с 10.8% (для 256k) до 18.5% (для 1M).

Но проблема «забывчивости» не единственная, которая возникает с увеличением контекста. Можно сказать, что с увеличением контекста модели становится сложнее «думать» и искать решение для поставленной задачи. Измерить, насколько хорошо модель справляется с поиском решения в больших контекстах, тоже возможно: для этого у нас есть бенчмарк GraphWalks.

cda44e98a14da1335f4f03d3f191f390.png

Сравнивать пока можно только с Sonnet 4.5, и, как ожидается, Opus 4.6 значительно превосходит Sonnet 4.5 этом бенчмарке.

Тулинг – вот что необходимо SOTA-агенту

Если посмотреть на подробный отчет, из которого кстати взяты многие цифры данной статьи, то можно обнаружить, что Anthropic довольно часто ссылается на важность использования тулинга, на то, что тулинг увеличивает качество генерации кода, а также уменьшает количество потребляемых токенов. Кроме того, использование качественного тулинга может значительно снизить время выполнения задач, предлагая более эффективные инструменты для:

  • получения общей информации по проекту: доменной модели, связанности компонентов фреймворка, настройках секьюрити и т.д

  • настроенных зависимостях проекта, в том числе транзитивных

  • предлагая AI возможности чтения описания классов, интерфейсов напрямую не доступных через файловую систему

  • и ещё много другого

Кроме того, под тулингом в Anthropic понимают не только вызов конкретных функций MCP и интеграцию с терминалом, но также: саб-агенты, правила/рулы и конечно же skills. Про большинство из перечисленного вы легко сможете самостоятельно найти в интернете исчерпывающую информацию. И напоследок ещё один пример важности тулинга.

Вместе с выходом Opus 4.6 появилась столь же громкая новость о том, что Opus 4.6 написал компилятор C на Rust с нуля — звучит очень громко и многообещающе. Рекомендую к прочтению оригинальную статью: Building a C compiler with a team of parallel Claudes. Я бы хотел обратить ваше внимание на то, что, по большому счёту, автор на протяжении всей статьи, по сути, занимается тем, что строит окружение/тулинг для Claude Code и объясняет агенту, как им пользоваться. Например, автор пишет о необходимости предоставить Claude Code качественный набор тестов:

Можно ли набор тестов называть тулингом? Более чем — посмотрите на Java TCK, набор автоматизированных тестов, используемых для проверки соответствия реализации спецификации.

Если вы программируете на Java/Kotlin

Не смотря на то что я пытался обстрагироваться от конкретного языка программирования и сосредоточится на модели, до конца мне это не удалось. Поэтому пара слов про Spring MCP.

Это MCP сервер, подключив который к вашему AI-агенту, вы дадите последнему возможность получать информацию о вашем приложении в терминах Spring Framework.

2ad0e82281caed6c4a97eb8fdc18e098.jpg

Для начала AI-агенту станет сильно проще ориентироваться в терминологии вида: Bean, Service, Endpoint, EventListener и т.д. Кроме того, Spring MCP содержит в себе такие полезные функции, как:

  • доступ к общей информации о проекте: набор сущностей, конфигураций, транзитивных зависимостей, эндпоинтов. Агенту больше не придётся читать множество файлов в поисках ответов на понятные Spring разработчику вопросы, что изрядно экономит токены

  • дереву бинов, в том числе тех, что объявлены в зависимостях, например в стартерах вашей корпоративной платформы

  • доступ к информации о классах/интерфейсах, а также методах и их сигнатурах, объявленных в библиотеках и стартерах

Так что если вы пишете на Spring с использованием AI-агентов, то попробуйте наш Spring MCP!

6f81bad2487755916eda145309224b48.png

Заключение

Что же в сухом остатке: Opus 4.6, как и должно было быть, оправдал звание минорного релиза, который, по идее, не должен был бы привлечь большого внимания, если бы не общий «хайп» вокруг AI. Однако, несмотря на то что он не принёс существенного улучшения в решении задач по генерации кода, Anthropic порадовала нас добавлением в модель adaptive thinking. Будем надеяться, что со временем даже на уровне high он сможет делать простые задачи быстро. А ценность увеличенного контекста на данный момент в рамках задач разработки всё ещё сложно оценить. Ну как всегда – тулинг решает.

Источник

Возможности рынка
Логотип 4
4 Курс (4)
$0.00995
$0.00995$0.00995
+1.57%
USD
График цены 4 (4) в реальном времени
Отказ от ответственности: Статьи, размещенные на этом веб-сайте, взяты из общедоступных источников и предоставляются исключительно в информационных целях. Они не обязательно отражают точку зрения MEXC. Все права принадлежат первоисточникам. Если вы считаете, что какой-либо контент нарушает права третьих лиц, пожалуйста, обратитесь по адресу [email protected] для его удаления. MEXC не дает никаких гарантий в отношении точности, полноты или своевременности контента и не несет ответственности за любые действия, предпринятые на основе предоставленной информации. Контент не является финансовой, юридической или иной профессиональной консультацией и не должен рассматриваться как рекомендация или одобрение со стороны MEXC.

Вам также может быть интересно

Santiment: бычий цикл биткоина начнётся только после краха Strategy

Santiment: бычий цикл биткоина начнётся только после краха Strategy

Основатель аналитической платформы Santiment Михаил Балашевич выдвинул провокационный тезис: устойчивый рост биткоина возможен лишь после драматического события
Поделиться
ProBlockChain2026/02/07 17:37
30%-300% бонусное предложение DeepSnitch AI и прогноз 100X вызывают ажиотаж покупок среди инвесторов, данные Santiment показывают, что трейдеры XRP настроены оптимистично, в то время как BTC, ETH падают

30%-300% бонусное предложение DeepSnitch AI и прогноз 100X вызывают ажиотаж покупок среди инвесторов, данные Santiment показывают, что трейдеры XRP настроены оптимистично, в то время как BTC, ETH падают

Смотрите любимые видео и музыку, загружайте оригинальный контент и делитесь всем этим с друзьями, семьей и всем миром на YouTube.
Поделиться
Blockchainreporter2026/02/07 21:40
Китай усиливает контроль над офшорными стейблкоинами в юанях на фоне продвижения цифрового юаня

Китай усиливает контроль над офшорными стейблкоинами в юанях на фоне продвижения цифрового юаня

Центральный банк Китая запретил любым иностранным организациям выпускать стейблкоины, привязанные к юаню, без специального разрешения китайских властей. Правительство
Поделиться
Crypto News Flash2026/02/07 21:10