OpenAI और Paradigm ने AI स्मार्ट कॉन्ट्रैक्ट हैकिंग परीक्षण के लिए EVMbench लॉन्च किया

Rongchai Wang मार्च 05, 2026 00:55

नया बेंचमार्क AI एजेंटों की स्मार्ट कॉन्ट्रैक्ट कमजोरियों का पता लगाने, पैच करने और उनका फायदा उठाने की क्षमता का मूल्यांकन करता है। GPT-5.3-Codex ने एक्सप्लॉइट कार्यों में 72.2% स्कोर किया।

OpenAI और Paradigm ने AI स्मार्ट कॉन्ट्रैक्ट हैकिंग परीक्षण के लिए EVMbench लॉन्च किया

OpenAI और क्रिप्टो वेंचर फर्म Paradigm ने EVMbench जारी किया है, एक बेंचमार्क जो यह मापता है कि AI एजेंट Ethereum स्मार्ट कॉन्ट्रैक्ट्स में कमजोरियों को कितनी अच्छी तरह खोज सकते हैं, ठीक कर सकते हैं और उनका फायदा उठा सकते हैं। यह घोषणा ऐसे समय में आई है जब AI-संचालित सुरक्षा उपकरण DeFi प्रोटोकॉल में लॉक किए गए $100 बिलियन से अधिक की रक्षा करने की होड़ में हैं।

यह बेंचमार्क 40 वास्तविक सुरक्षा ऑडिट से निकाली गई 120 क्यूरेटेड उच्च-गंभीरता वाली कमजोरियों से लिया गया है, जो ज्यादातर Code4rena प्रतियोगिताओं से हैं। इसमें Tempo की सुरक्षा समीक्षाओं से कमजोरी परिदृश्य भी शामिल हैं, जो स्थिर मुद्रा भुगतान के लिए बनाया गया एक Layer 1 ब्लॉकचेन है।

स्मार्ट कॉन्ट्रैक्ट्स को तोड़ने के तीन तरीके

EVMbench तीन अलग-अलग मोड में AI एजेंटों का परीक्षण करता है। Detect मोड में, एजेंट कॉन्ट्रैक्ट रिपॉजिटरी का ऑडिट करते हैं और ज्ञात कमजोरियों को खोजने पर स्कोर प्राप्त करते हैं। Patch मोड में एजेंटों को मौजूदा कार्यक्षमता को तोड़े बिना कमजोर कोड को ठीक करना होता है। Exploit मोड सबसे आक्रामक है—एजेंटों को सैंडबॉक्स्ड ब्लॉकचेन पर तैनात कॉन्ट्रैक्ट्स के खिलाफ वास्तविक फंड-ड्रेनिंग हमले करने होते हैं।

परिणाम दिखाते हैं कि इस क्षेत्र में AI क्षमताएं कितनी तेजी से आगे बढ़ रही हैं। Codex CLI के माध्यम से चलने वाले GPT-5.3-Codex ने एक्सप्लॉइट कार्यों में 72.2% सफलता दर हासिल की। यह GPT-5 के 31.9% स्कोर से दोगुने से भी अधिक है, जो सिर्फ छह महीने पहले लॉन्च हुआ था।

दिलचस्प बात यह है कि AI एजेंट बचाव की तुलना में हमला करने में बेहतर प्रदर्शन करते हैं। एक्सप्लॉइट सेटिंग का एक स्पष्ट उद्देश्य है—तब तक पुनरावृत्ति करते रहें जब तक आप फंड को ड्रेन नहीं कर देते। डिटेक्शन और पैचिंग अधिक कठिन साबित हुए। एजेंट कभी-कभी एक बग खोजने के बाद रुक जाते थे बजाय व्यापक रूप से ऑडिट करने के, और सूक्ष्म कमजोरियों को हटाते हुए पूर्ण कॉन्ट्रैक्ट कार्यक्षमता बनाए रखना चुनौतीपूर्ण बना रहा।

ध्यान देने योग्य वास्तविक सीमाएं

OpenAI ने स्वीकार किया कि EVMbench वास्तविक दुनिया की कॉन्ट्रैक्ट सुरक्षा की पूरी कठिनाई को कैप्चर नहीं करता है। Uniswap या Aave जैसे व्यापक रूप से तैनात प्रोटोकॉल ऑडिट प्रतियोगिता कोड की तुलना में कहीं अधिक जांच से गुजरते हैं। बेंचमार्क यह भी सत्यापित नहीं कर सकता कि एजेंट ने वैध कमजोरियां खोजी हैं जो मानव ऑडिटर चूक गए—यह केवल ज्ञात मुद्दों के खिलाफ जांच करता है।

एक्सप्लॉइट वातावरण फोर्क्ड मेननेट स्थिति के बजाय एक स्वच्छ स्थानीय Anvil इंस्टेंस पर चलता है, और समय-निर्भर हमले दायरे से बाहर आते हैं। फिलहाल केवल सिंगल-चेन वातावरण।

रक्षात्मक अनुसंधान के लिए $10M

EVMbench के साथ, OpenAI ने विशेष रूप से रक्षात्मक सुरक्षा अनुसंधान के लिए $10 मिलियन API क्रेडिट की प्रतिबद्धता जताई। कंपनी अधिक उपयोगकर्ताओं के लिए अपने Aardvark सुरक्षा अनुसंधान एजेंट का विस्तार कर रही है और मुफ्त कोडबेस स्कैनिंग के लिए ओपन-सोर्स रखरखावकर्ताओं के साथ साझेदारी कर रही है।

समय मायने रखता है। जैसे-जैसे AI एजेंट कॉन्ट्रैक्ट्स का फायदा उठाने में बेहतर होते जा रहे हैं, कमजोरी की खोज और शोषण के बीच की खिड़की सिकुड़ रही है। जो प्रोटोकॉल टीमें AI-सहायता प्राप्त ऑडिटिंग का उपयोग नहीं कर रही हैं, वे तेजी से उन हमलावरों के खिलाफ नुकसान में पाएंगी जो कर रहे हैं।

OpenAI ने EVMbench के कार्यों, टूलिंग और मूल्यांकन ढांचे को सार्वजनिक रूप से जारी किया। DeFi डेवलपर्स और सुरक्षा शोधकर्ताओं के लिए, यह एक मापदंड और एक चेतावनी दोनों है कि AI क्षमताएं कहां जा रही हैं।

छवि स्रोत: Shutterstock