OpenAIは、AIエージェントが暗号資産のスマートコントラクトにおけるセキュリティ脆弱性をどれだけ効果的に検出、軽減、さらには悪用できるかを測定することを目的としたベンチマークフレームワークを発表しました。「EVMbench: Evaluating AI Agents on Smart Contract Security」と題されたこのプロジェクトは、ブロックチェーンセキュリティと投資に深い知見を持つ2つの組織、ParadigmとOtterSecとの協力により公開されました。この研究は、40件のスマートコントラクト監査から抽出された120の潜在的な脆弱性に対してAIエージェントを評価し、検出能力とパッチ適用能力だけでなく、制御された環境におけるこれらのエージェントの理論的な悪用可能性を定量化することを目指しています。
AIエージェントの検出報酬は、研究に付随するOpenAIのPDFに詳述されており、評価方法論と現実世界のスマートコントラクトリスクをシミュレートするために使用されたシナリオも説明されています。著者らは、AIエージェントが幅広い定型タスクを自動化するように進化している一方で、本番システムでプレッシャー下でどのように機能するかを理解するには「経済的に意味のある環境」でのパフォーマンスを評価することが不可欠であると強調しています。
OpenAIは、エージェント技術が自動化されたワークフローで使用されるステーブルコインを含む、支払いと決済の範囲を拡大することを期待していると述べています。AI対応の支払いに関する議論は、セキュリティテストを超えて、自律システムが日常的な金融活動にどのように参加するかというより広範な問題に及びます。同社自身の予測では、エージェント的な支払いがより一般的になり、日常的な消費者取引に触れる実用的なユースケースにAI機能を根付かせる可能性があることを示唆しています。
ベンチマーク結果と並行して、Circle CEOのJeremy Allaireは、今後5年以内に数十億のAIエージェントが日常的な支払いにステーブルコインを使用して取引を行う可能性があると公に予測しています。その見解は、暗号資産界で繰り返されるテーマと交差しています。それは、暗号資産がAIエージェントのネイティブ通貨になる可能性であり、業界リーダーや投資家から注目を集めているナラティブです。そのような予測は推測的なものですが、根本的なトレンドは明確です。AI自動化は実験室から取引レイヤーに移行しており、ネットワーク全体での価値の移動方法を再構築する可能性があります。
この研究は、暗号資産セキュリティが投資家にとって依然として重大なリスク要因である時期に到来しました。2025年の暗号資産ファンドへの攻撃に関するデータポイント(攻撃者が約34億ドルを引き出した)は、改善されたツールとより迅速で信頼性の高いパッチメカニズムの緊急性を浮き彫りにしています。EVMbenchフレームワークは、一部として、AIエージェントが大規模な防御能力に有意義に貢献できるかどうかを測定する方法として位置付けられており、悪用の機会を減らし、脅威の軽減を加速します。
ベンチマークを構築するために、研究者は40件のスマートコントラクト監査にわたる120の厳選された脆弱性を活用し、多くの脆弱性はオープンソース監査チャレンジに遡ります。OpenAIは、このベンチマークが大規模なコントラクトレベルの脆弱性の認識と軽減におけるAIの進歩を追跡するのに役立ち、将来のAIモデルの進化に伴って比較する標準化された方法を提供すると主張しています。この研究はまた、孤立したケースだけに焦点を当てるのではなく、幅広いスマートコントラクトアーキテクチャ全体でリスク評価を正規化するためにAIがどのように適用されるかについての視点を提供します。
Xの同時スレッドで、DragonflyのパートナーであるHaseeb Qureshiは、暗号資産が財産権と伝統的な契約を置き換えるという約束が実現しなかったのは、技術が失敗したからではなく、人間の直感を念頭に置いて設計されなかったからだと主張しました。彼は、ドレイナーウォレットやその他の攻撃ベクトルが絶え間ない脅威となっている環境で大規模な取引に署名することに関連する根強い恐怖を強調しており、これは従来の銀行送金の比較的スムーズな体験とは対照的です。
Qureshiは、暗号資産取引の次の段階は、AI仲介型の自動運転ウォレットによって可能になる可能性があると主張しています。そのようなウォレットは、リスクを監視し、複雑な操作を管理し、ユーザーに代わって脅威に自律的に対応し、今日の大規模な送金を特徴づける摩擦と恐怖を潜在的に減らします。
このスレッドからのより広範な要点は、AIエージェントが人々が暗号資産とやり取りする方法を変革する上で重要な役割を果たす可能性があるということです。手動でエラーが発生しやすい取引から、採用に応じて拡張できる自動化されたリスクを認識するプロセスへの移行です。AIエージェントがセキュリティ上の懸念に対処する能力をより多く示し始めるにつれて、基盤となる技術が成熟し続ける中でも、ユーザーは分散型金融ワークフローにおける信頼性と回復力の向上を見ることができるでしょう。
EVMbench研究は、大規模言語モデルと関連するAIエージェントがスマートコントラクト空間で有意義なセキュリティ作業を実行し始めており、モデル間で明確に定量化可能な違いがあることを示しています。Claude Opus 4.6の平均検出報酬でのリードは、特定のアーキテクチャが複雑なコントラクトロジック内の脆弱性を発見して軽減することにより長けている可能性がある一方で、他のものは遅れをとっており、研究者が洗練したいと思う可能性のある能力のスペクトルを提供していることを示しています。プロジェクトにおける複数の業界パートナーシップの包含は、AI対応セキュリティとリスク管理の自動化が分散環境でスケールするために不可欠になる可能性があるという増大する合意を強調しています。
この分野が進化するにつれて、観察者はAIエージェントが検出から修復にどれだけ迅速に移行できるか、そしてこれらのエージェントが新しいリスクを導入することなくライブシステムで確実に動作できるかどうかを注視するでしょう。AI 駆動のウォレットと自律的な支払いに関する会話は、セキュリティガバナンス、ユーザーの同意、規制の整合性に関するより広範な一連の質問に触れています。OpenAIとそのパートナーが示唆する軌道が続く場合、AI支援ツールは将来の暗号資産インフラストラクチャの中核コンポーネントとなり、リスク計算とユーザーエクスペリエンスの両方を意味のある方法で変える可能性があります。次のラウンドのベンチマークは、実世界での展開とともに、このビジョンがどれだけ迅速に実現するか、そしてどのような保護措置が伴わなければならないかを判断するのに役立ちます。
この記事は、Crypto Breaking News — 暗号資産ニュース、Bitcoinニュース、およびブロックチェーン更新の信頼できる情報源 —に「OpenAI Pits AI Agents Against Each Other to Red-Team Smart Contracts」として最初に公開されました。


