OpenAI представила benchmark-фреймворк, спрямований на вимірювання ефективності виявлення, пом'якшення та навіть використання вразливостей безпеки в криптовалютах ШІ-агентамиOpenAI представила benchmark-фреймворк, спрямований на вимірювання ефективності виявлення, пом'якшення та навіть використання вразливостей безпеки в криптовалютах ШІ-агентами

OpenAI протиставляє ШІ-агентів один одному для red-team тестування смартконтрактів

2026/02/19 09:26
6 хв читання
Openai Pits Ai Agents Against Each Other To Red-Team Smart Contracts

OpenAI представила систему бенчмаркінгу, спрямовану на вимірювання того, наскільки ефективно ШІ-агенти можуть виявляти, пом'якшувати і навіть використовувати вразливості безпеки в криптовалютних смартконтрактах. Проєкт під назвою "EVMbench: Evaluating AI Agents on Smart Contract Security" було випущено у співпраці з Paradigm та OtterSec, двома організаціями з глибоким досвідом у безпеці блокчейну та інвестуванні. Дослідження оцінює ШІ-агентів на підставі курованого набору з 120 потенційних слабких місць, отриманих з 40 аудитів смартконтрактів, прагнучи кількісно визначити не лише можливості виявлення та виправлення, але й теоретичний потенціал експлуатації цих агентів у контрольованому середовищі.

Ключові висновки

  • EVMbench тестує ШІ-агентів на 120 вразливостях, відібраних з 40 аудитів смартконтрактів, з акцентом на вразливості з відкритих конкурсів з аудиту.
  • Серед протестованих моделей Claude Opus 4.6 від Anthropic лідирував із середньою винагородою за виявлення $37 824, за ним слідували OC-GPT-5.2 від OpenAI з $31 623 та Gemini 3 Pro від Google з $25 112.
  • OpenAI позиціонує бенчмарк як крок до вимірювання продуктивності ШІ в "економічно значущих середовищах", а не лише в тестових завданнях, підкреслюючи реальні наслідки для атакуючих та захисників у ландшафті криптобезпеки.
  • Дослідники зазначають, що смартконтракти забезпечують мільярди доларів в активах, підкреслюючи стратегічну цінність інструментів із підтримкою ШІ як для наступальних, так і для оборонних дій.
  • Галузеві спостерігачі пов'язали ці розробки з ширшими дискусіями про керовані ШІ оплати та роль стейблкоїнів у повсякденних транзакціях, при цьому провідні керівники прогнозують зростаюче використання агентів у найближчі роки.
  • Контекст для такої роботи підкреслюється даними про інциденти криптобезпеки 2025 року, які показують постійний відтік коштів через вразливості та атаки, посилюючи попит на надійні механізми аудиту та захисту з підтримкою ШІ.

Винагороди за виявлення для ШІ-агентів детально описані в PDF-документі OpenAI, що супроводжує дослідження, в якому також описується методологія оцінки та сценарії, використані для моделювання реального ризику смартконтрактів. Автори підкреслюють, що хоча ШІ-агенти еволюціонували для автоматизації широкого спектру рутинних завдань, оцінка їх продуктивності в "економічно значущих середовищах" є важливою для розуміння того, як вони працюватимуть під тиском у виробничих системах.

OpenAI зазначає, що очікує, що агентські технології розширять сферу оплати та розрахунків, включаючи стейблкоїни, які використовуються в автоматизованих робочих процесах. Дискусія навколо оплати з підтримкою ШІ виходить за межі тестування безпеки до ширшого питання про те, як автономні системи братимуть участь у повсякденній фінансовій діяльності. Власні прогнози компанії припускають, що агентські оплати можуть стати більш поширеними, закріплюючи можливості ШІ в практичних випадках використання, що стосуються повсякденних споживчих транзакцій.

Одночасно з результатами бенчмарку генеральний директор Circle Джеремі Аллер публічно спрогнозував, що мільярди ШІ-агентів можуть здійснювати транзакції зі стейблкоїнами для щоденних оплат протягом наступних п'яти років. Ця точка зору перетинається з повторюваною темою в криптовалютних колах: потенціал криптовалюти стати рідною валютою ШІ-агентів, наратив, який привернув помітну увагу галузевих лідерів та інвесторів. Хоча такі прогнози залишаються спекулятивними, основна тенденція зрозуміла — автоматизація ШІ переміщується з лабораторії на рівень транзакцій, де вона може змінити спосіб руху вартості через мережі.

Дослідження з'являється в момент, коли безпека криптовалют продовжує залишатися значним фактором ризику для інвесторів. Дані про атаки на криптовалютні фонди 2025 року — де зловмисники вивели приблизно $3,4 млрд — підкреслюють терміновість покращених інструментів та швидших, надійніших механізмів виправлення. Система EVMbench позиціонується, зокрема, як спосіб виміряти, чи можуть ШІ-агенти значно сприяти оборонним можливостям у масштабі, зменшуючи можливості експлуатації та прискорюючи пом'якшення загроз.

Для створення бенчмарку дослідники використали 120 курованих вразливостей з 40 аудитів смартконтрактів, причому багато слабких місць відстежувалися до відкритих конкурсів з аудиту. OpenAI стверджує, що бенчмарк допоможе відстежувати прогрес ШІ у розпізнаванні та пом'якшенні слабких місць на рівні контрактів у масштабі, пропонуючи стандартизований спосіб порівняння майбутніх моделей ШІ в міру їх розвитку. Дослідження також надає розуміння того, як ШІ може застосовуватися для нормалізації оцінки ризиків у широкому діапазоні архітектур смартконтрактів, а не зосереджуватися лише на ізольованих випадках.

Смартконтракти не створювалися для людей: Dragonfly

У сучасній темі на X Хасіб Куреші, партнер у Dragonfly, стверджував, що обіцянка криптовалюти замінити права власності та традиційні контракти ніколи не матеріалізувалася не тому, що технологія зазнала невдачі, а тому, що вона ніколи не була розроблена з урахуванням людської інтуїції. Він підкреслив постійний страх, пов'язаний з підписанням великих транзакцій у середовищі, де дренуючі гаманці та інші вектори атак залишаються постійною загрозою, на відміну від порівняно більш плавного досвіду традиційних банківських переказів.

Куреші стверджує, що наступна фаза криптовалютних транзакцій може бути забезпечена посередництвом ШІ, самокерованими гаманцями. Такі гаманці відстежуватимуть ризик, керуватимуть складними операціями та автономно реагуватимуть на загрози від імені користувачів, потенційно зменшуючи тертя та страх, які характеризують великі перекази сьогодні.

Ширший висновок з цієї теми полягає в тому, що ШІ-агенти можуть відігравати критичну роль у трансформації того, як люди взаємодіють з криптовалютою — переходячи від ручних, схильних до помилок транзакцій до автоматизованих, обізнаних про ризики процесів, які можуть масштабуватися з прийняттям. Оскільки ШІ-агенти починають демонструвати більшу компетентність у вирішенні проблем безпеки, користувачі можуть побачити покращену надійність та стійкість у робочих процесах децентралізованих фінансів, навіть коли базові технології продовжують дозрівати.

На що звернути увагу далі

  • Публікація та незалежна реплікація повного набору даних EVMbench для додаткових моделей та архітектур ШІ.
  • Ширше впровадження робочих процесів аудиту з підтримкою ШІ аудиторами, біржами та DeFi-проєктами, які прагнуть посилити позиції безпеки.
  • Дослідження агентських гаманців та автономних потоків оплати, включаючи регуляторні та відповідності для активів, керованих ШІ.
  • Подальші бенчмарки, що порівнюють більше систем ШІ з виходом нових версій, відстежуючи покращення точності виявлення та швидкості виправлення.

Джерела та перевірка

  • OpenAI: EVMbench: Evaluating AI Agents on Smart Contract Security — PDF: https://cdn.openai.com/evmbench/evmbench.pdf
  • OpenAI: Introducing EVMbench — https://openai.com/index/introducing-evmbench/
  • Втрати безпеки криптовалют у 2025 році (звітне висвітлення): https://cointelegraph.com/news/crypto-3-4-billion-losses-2025-wallet-hacks
  • Dragonfly: Хасіб Куреші про ШІ та криптовалютний UX (пост X): https://x.com/hosseeb/status/2024136762424185208
  • Лідерство Китаю в ШІ та наслідки для криптовалют (аналіз): https://cointelegraph.com/news/china-ai-lead-future
  • AI Eye — розробки IronClaw та ШІ-ботів у висвітленні Polymarket: https://cointelegraph.com/magazine/ironclaw-secure-private-sounds-cooler-openclaw-ai-eye/

Ключові цифри та наступні кроки

Дослідження EVMbench демонструє, що великі мовні моделі та пов'язані ШІ-агенти починають виконувати значущу роботу з безпеки в просторі смартконтрактів, з чітко кількісними відмінностями між моделями. Лідерство Claude Opus 4.6 у середніх винагородах за виявлення сигналізує про те, що певні архітектури можуть бути більш здатними виявляти та пом'якшувати вразливості в складній логіці контрактів, тоді як інші відстають, пропонуючи спектр можливостей, які дослідники, ймовірно, захочуть удосконалити. Включення кількох галузевих партнерств у проєкт підкреслює зростаючий консенсус щодо того, що безпека з підтримкою ШІ та автоматизоване управління ризиками можуть стати важливими для масштабування в децентралізованих середовищах.

У міру розвитку галузі спостерігачі стежитимуть за тим, як швидко ШІ-агенти можуть перейти від виявлення до виправлення, і чи можуть ці агенти надійно працювати в живих системах, не вносячи нових ризиків. Розмова про керовані ШІ гаманці та автономні оплати стосується ширшого набору питань щодо управління безпекою, згоди користувачів та регуляторного узгодження. Якщо траєкторія, запропонована OpenAI та її партнерами, продовжиться, інструменти з підтримкою ШІ можуть стати основним компонентом майбутньої криптоінфраструктури, змінюючи як розрахунок ризиків, так і користувацький досвід значущими способами. Наступний раунд бенчмарків разом із реальними впровадженнями допоможе визначити, наскільки швидко це бачення матеріалізується і які гарантії повинні його супроводжувати.

Ця стаття була спочатку опублікована як OpenAI Pits AI Agents Against Each Other to Red-Team Smart Contracts на Crypto Breaking News – вашому надійному джерелі новин про криптовалюти, новин про Bitcoin та оновлень блокчейну.

Ринкові можливості
Логотип Smart Blockchain
Курс Smart Blockchain (SMART)
$0.004384
$0.004384$0.004384
-2.20%
USD
Графік ціни Smart Blockchain (SMART) в реальному часі
Відмова від відповідальності: статті, опубліковані на цьому сайті, взяті з відкритих джерел і надаються виключно для інформаційних цілей. Вони не обов'язково відображають погляди MEXC. Всі права залишаються за авторами оригінальних статей. Якщо ви вважаєте, що будь-який контент порушує права третіх осіб, будь ласка, зверніться за адресою [email protected] для його видалення. MEXC не дає жодних гарантій щодо точності, повноти або своєчасності вмісту і не несе відповідальності за будь-які дії, вчинені на основі наданої інформації. Вміст не є фінансовою, юридичною або іншою професійною порадою і не повинен розглядатися як рекомендація або схвалення з боку MEXC.