OpenAI та Paradigm запускають EVMbench для тестування злому смартконтрактів за допомогою ШІ
Rongchai Wang 00:55, 5 березня 2026
Новий бенчмарк оцінює здатність ШІ-агентів виявляти, виправляти та експлуатувати вразливості смартконтрактів. GPT-5.3-Codex досягає 72,2% успіху у завданнях з експлуатації.
OpenAI та криптовенчурна фірма Paradigm випустили EVMbench — бенчмарк, який вимірює, наскільки добре ШІ-агенти можуть знаходити, виправляти та експлуатувати вразливості у смартконтрактах Ethereum. Оголошення з'являється на тлі того, як інструменти безпеки на основі ШІ змагаються за захист понад 100 мільярдів доларів, заблокованих у протоколах DeFi.
Бенчмарк базується на 120 відібраних вразливостях високої критичності, взятих з 40 реальних аудитів безпеки, переважно зі змагань Code4rena. Він також включає сценарії вразливостей з перевірок безпеки Tempo — блокчейну Layer 1, створеного для платежів стейблкоїнами.
Три способи зламати смартконтракти
EVMbench тестує ШІ-агентів у трьох різних режимах. У режимі виявлення агенти проводять аудит репозиторіїв контрактів і отримують оцінки за знаходження відомих вразливостей. Режим виправлення вимагає від агентів виправити вразливий код без порушення існуючої функціональності. Режим експлуатації є найагресивнішим — агенти повинні виконати реальні атаки з викачування коштів проти контрактів, розгорнутих у ізольованому блокчейні.
Результати показують, наскільки швидко розвиваються можливості ШІ у цій сфері. GPT-5.3-Codex, що працює через Codex CLI, досяг 72,2% успішності у завданнях з експлуатації. Це більш ніж удвічі перевищує показник 31,9% від GPT-5, який було запущено лише шість місяців тому.
Цікаво, що ШІ-агенти краще справляються з атакою, ніж із захистом. Налаштування експлуатації має чітку мету — продовжувати ітерації, поки не викачаєте кошти. Виявлення та виправлення виявилися складнішими. Агенти іноді зупинялися після знаходження однієї помилки замість вичерпного аудиту, а підтримка повної функціональності контракту з одночасним усуненням тонких вразливостей залишалася складною.
Реальні обмеження, які варто відзначити
OpenAI визнала, що EVMbench не охоплює всієї складності безпеки контрактів у реальному світі. Широко розгорнуті протоколи, такі як Uniswap або Aave, проходять набагато більшу перевірку, ніж код аудиторських змагань. Бенчмарк також не може перевірити, чи знаходить агент легітимні вразливості, які пропустили людські аудитори — він лише перевіряє відомі проблеми.
Середовище експлуатації працює на чистому локальному екземплярі Anvil, а не на форкнутому стані мейннету, і атаки, залежні від часу, виходять за межі охоплення. Наразі лише одноланнюгові середовища.
10 мільйонів доларів на оборонні дослідження
Разом з EVMbench OpenAI виділила 10 мільйонів доларів у кредитах API спеціально для оборонних досліджень безпеки. Компанія розширює свого агента дослідження безпеки Aardvark для більшої кількості користувачів і співпрацює з розробниками open-source для безкоштовного сканування кодових баз.
Час має значення. Оскільки ШІ-агенти стають кращими в експлуатації контрактів, вікно між виявленням вразливості та експлуатацією звужується. Команди протоколів, які не використовують аудит за допомогою ШІ, все частіше опиняться в невигідному становищі проти зловмисників, які його використовують.
OpenAI публічно випустила завдання, інструменти та систему оцінювання EVMbench. Для розробників DeFi та дослідників безпеки це і мірило, і попередження про те, куди прямують можливості ШІ.
Джерело зображення: Shutterstock- openai
- paradigm
- смартконтракти
- безпека ШІ
- defi



