OpenAI telah meluncurkan kerangka kerja benchmarking yang ditujukan untuk mengukur seberapa efektif agen AI dapat mendeteksi, mengurangi, dan bahkan mengeksploitasi kerentanan keamanan dalam smart contract kripto. Proyek yang berjudul "EVMbench: Evaluating AI Agents on Smart Contract Security," dirilis bekerja sama dengan Paradigm dan OtterSec, dua organisasi dengan eksposur mendalam terhadap keamanan blockchain dan investasi. Studi ini menilai agen AI terhadap serangkaian 120 kelemahan potensial yang diambil dari 40 audit smart contract, berusaha mengukur tidak hanya kemampuan deteksi dan patching tetapi juga potensi eksploitasi teoretis dari agen-agen ini dalam lingkungan yang terkontrol.
Detect award untuk agen AI dirinci dalam PDF OpenAI yang menyertai studi, yang juga menjelaskan metodologi evaluasi dan skenario yang digunakan untuk mensimulasikan risiko smart-contract dunia nyata. Para penulis menekankan bahwa meskipun agen AI telah berkembang untuk mengotomatisasi berbagai tugas rutin, menilai kinerja mereka dalam "lingkungan yang bermakna secara ekonomi" sangat penting untuk memahami bagaimana mereka akan berkinerja di bawah tekanan dalam sistem produksi.
OpenAI mencatat bahwa mereka berharap teknologi agentic akan memperluas cakupan pembayaran dan penyelesaian, termasuk stablecoin yang digunakan dalam alur kerja otomatis. Diskusi seputar pembayaran berbasis AI melampaui pengujian keamanan hingga pertanyaan yang lebih luas tentang bagaimana sistem otonom akan berpartisipasi dalam aktivitas keuangan sehari-hari. Proyeksi perusahaan sendiri menunjukkan bahwa pembayaran agentic bisa menjadi lebih umum, mendasarkan kemampuan AI pada kasus penggunaan praktis yang menyentuh transaksi konsumen sehari-hari.
Bersamaan dengan hasil benchmark, CEO Circle Jeremy Allaire secara publik memperkirakan bahwa miliaran agen AI dapat bertransaksi dengan stablecoin untuk pembayaran sehari-hari dalam lima tahun ke depan. Pandangan itu bersinggungan dengan tema berulang dalam lingkaran kripto: potensi kripto untuk menjadi mata uang asli agen AI, narasi yang telah mendapat perhatian signifikan dari para pemimpin industri dan investor. Meskipun prediksi semacam itu tetap spekulatif, tren yang mendasarinya jelas—otomasi AI bergerak dari laboratorium ke lapisan transaksi, di mana ia dapat membentuk kembali bagaimana nilai bergerak melintasi jaringan.
Studi ini tiba pada saat keamanan kripto terus menjadi faktor risiko signifikan bagi investor. Titik data tentang serangan terhadap dana kripto 2025—di mana penyerang menarik sekitar $3,4 miliar—menyoroti urgensi peralatan yang lebih baik dan mekanisme patching yang lebih cepat dan lebih andal. Kerangka kerja EVMbench diposisikan, sebagian, sebagai cara untuk mengukur apakah agen AI dapat berkontribusi secara bermakna terhadap kemampuan defensif dalam skala besar, mengurangi peluang eksploitasi dan mempercepat mitigasi ancaman.
Untuk membangun benchmark, para peneliti menggunakan 120 kerentanan yang dikurasi melintasi 40 audit smart contract, dengan banyak kelemahan yang ditelusuri kembali ke tantangan audit open-source. OpenAI berpendapat benchmark akan membantu melacak kemajuan AI dalam mengenali dan mengurangi kelemahan tingkat kontrak dalam skala besar, menawarkan cara standar untuk membandingkan model AI masa depan saat mereka berkembang. Studi ini juga memberikan lensa tentang bagaimana AI mungkin diterapkan untuk menormalkan penilaian risiko di berbagai arsitektur smart-contract, daripada hanya fokus pada kasus-kasus yang terisolasi.
Dalam thread serentak di X, Haseeb Qureshi, partner di Dragonfly, berpendapat bahwa janji kripto untuk menggantikan hak properti dan kontrak tradisional tidak pernah terwujud bukan karena teknologinya gagal, tetapi karena tidak pernah dirancang dengan intuisi manusia dalam pikiran. Dia telah menyoroti ketakutan persisten yang terkait dengan menandatangani transaksi besar dalam lingkungan di mana drainer wallet dan vektor serangan lainnya tetap menjadi ancaman konstan, sangat kontras dengan pengalaman transfer bank tradisional yang relatif lebih lancar.
Qureshi berpendapat bahwa fase berikutnya dari transaksi kripto dapat dimungkinkan oleh wallet self-driving yang dimediasi AI. Wallet semacam itu akan memantau risiko, mengelola operasi kompleks, dan secara otonom merespons ancaman atas nama pengguna, berpotensi mengurangi gesekan dan ketakutan yang menjadi ciri transfer besar saat ini.
Kesimpulan yang lebih luas dari thread ini adalah bahwa agen AI dapat memainkan peran kritis dalam mengubah cara orang berinteraksi dengan kripto—beralih dari transaksi manual yang rawan kesalahan ke proses otomatis yang sadar risiko yang dapat berkembang dengan adopsi. Saat agen AI mulai menunjukkan kompetensi lebih dalam menangani masalah keamanan, pengguna dapat melihat peningkatan keandalan dan ketahanan dalam alur kerja keuangan terdesentralisasi, bahkan saat teknologi yang mendasarinya terus matang.
Studi EVMbench menunjukkan bahwa model bahasa besar dan agen AI terkait mulai melakukan pekerjaan keamanan yang bermakna dalam ruang smart contract, dengan perbedaan yang dapat diukur dengan jelas di berbagai model. Keunggulan Claude Opus 4.6 dalam rata-rata detect award menandakan bahwa arsitektur tertentu mungkin lebih mahir dalam menemukan dan mengurangi kerentanan dalam logika kontrak yang kompleks, sementara yang lain tertinggal, menawarkan spektrum kemampuan yang kemungkinan ingin disempurnakan oleh para peneliti. Inklusi berbagai kemitraan industri dalam proyek ini menggarisbawahi konsensus yang berkembang bahwa keamanan berbasis AI dan manajemen risiko otomatis dapat menjadi esensial untuk berkembang dalam lingkungan terdesentralisasi.
Saat bidang berkembang, pengamat akan memperhatikan seberapa cepat agen AI dapat beralih dari deteksi ke remediasi, dan apakah agen-agen ini dapat beroperasi dengan andal dalam sistem langsung tanpa menimbulkan risiko baru. Percakapan tentang wallet yang didorong AI dan pembayaran otonom menyentuh serangkaian pertanyaan yang lebih luas seputar tata kelola keamanan, persetujuan pengguna, dan keselarasan regulasi. Jika lintasan yang disarankan oleh OpenAI dan mitra-mitranya terus berlanjut, alat berbantuan AI dapat menjadi komponen inti dari infrastruktur kripto masa depan, mengubah kalkulus risiko dan pengalaman pengguna dengan cara yang bermakna. Putaran benchmark berikutnya, bersama dengan penerapan dunia nyata, akan membantu menentukan seberapa cepat visi ini terwujud dan pengamanan apa yang harus menyertainya.
Artikel ini awalnya diterbitkan sebagai OpenAI Pits AI Agents Against Each Other to Red-Team Smart Contracts di Crypto Breaking News – sumber terpercaya Anda untuk berita kripto, berita Bitcoin, dan pembaruan blockchain.


