OpenAI telah meluncurkan kerangka kerja benchmarking yang bertujuan untuk mengukur seberapa efektif agen AI dapat mendeteksi, mengurangi, dan bahkan mengeksploitasi kerentanan keamanan dalam cryptoOpenAI telah meluncurkan kerangka kerja benchmarking yang bertujuan untuk mengukur seberapa efektif agen AI dapat mendeteksi, mengurangi, dan bahkan mengeksploitasi kerentanan keamanan dalam crypto

OpenAI Mengadu Agen AI Satu Sama Lain untuk Red-Team Smart Contracts

2026/02/19 09:26
durasi baca 7 menit
Openai Pits Ai Agents Against Each Other To Red-Team Smart Contracts

OpenAI telah meluncurkan kerangka kerja benchmarking yang ditujukan untuk mengukur seberapa efektif agen AI dapat mendeteksi, mengurangi, dan bahkan mengeksploitasi kerentanan keamanan dalam smart contract kripto. Proyek yang berjudul "EVMbench: Evaluating AI Agents on Smart Contract Security," dirilis bekerja sama dengan Paradigm dan OtterSec, dua organisasi dengan eksposur mendalam terhadap keamanan blockchain dan investasi. Studi ini menilai agen AI terhadap serangkaian 120 kelemahan potensial yang diambil dari 40 audit smart contract, berusaha mengukur tidak hanya kemampuan deteksi dan patching tetapi juga potensi eksploitasi teoretis dari agen-agen ini dalam lingkungan yang terkontrol.

Poin-poin penting

  • EVMbench menguji agen AI terhadap 120 kerentanan yang dikumpulkan dari 40 audit smart contract, menekankan kerentanan yang bersumber dari kompetisi audit open-source.
  • Di antara model yang diuji, Claude Opus 4.6 dari Anthropic memimpin dengan rata-rata detect award sebesar $37.824, diikuti oleh OC-GPT-5.2 OpenAI sebesar $31.623 dan Gemini 3 Pro Google sebesar $25.112.
  • OpenAI membingkai benchmark sebagai langkah menuju pengukuran kinerja AI dalam "lingkungan yang bermakna secara ekonomi," bukan hanya tugas-tugas mainan, menyoroti implikasi dunia nyata bagi penyerang dan pembela dalam lanskap keamanan kripto.
  • Para peneliti mencatat bahwa smart contract mengamankan aset bernilai miliaran dolar, menggarisbawahi nilai strategis dari peralatan berbasis AI untuk aktivitas ofensif dan defensif.
  • Pengamat industri telah mengaitkan perkembangan ini dengan diskusi yang lebih luas tentang pembayaran yang didorong AI dan peran stablecoin dalam transaksi sehari-hari, dengan eksekutif utama memprediksi peningkatan penggunaan agentic di tahun-tahun mendatang.
  • Konteks untuk pekerjaan semacam itu digarisbawahi oleh data insiden keamanan kripto 2025, yang menunjukkan aliran dana yang berkelanjutan melalui kerentanan dan serangan, memperkuat permintaan akan mekanisme audit dan pertahanan berbasis AI yang kuat.

Detect award untuk agen AI dirinci dalam PDF OpenAI yang menyertai studi, yang juga menjelaskan metodologi evaluasi dan skenario yang digunakan untuk mensimulasikan risiko smart-contract dunia nyata. Para penulis menekankan bahwa meskipun agen AI telah berkembang untuk mengotomatisasi berbagai tugas rutin, menilai kinerja mereka dalam "lingkungan yang bermakna secara ekonomi" sangat penting untuk memahami bagaimana mereka akan berkinerja di bawah tekanan dalam sistem produksi.

OpenAI mencatat bahwa mereka berharap teknologi agentic akan memperluas cakupan pembayaran dan penyelesaian, termasuk stablecoin yang digunakan dalam alur kerja otomatis. Diskusi seputar pembayaran berbasis AI melampaui pengujian keamanan hingga pertanyaan yang lebih luas tentang bagaimana sistem otonom akan berpartisipasi dalam aktivitas keuangan sehari-hari. Proyeksi perusahaan sendiri menunjukkan bahwa pembayaran agentic bisa menjadi lebih umum, mendasarkan kemampuan AI pada kasus penggunaan praktis yang menyentuh transaksi konsumen sehari-hari.

Bersamaan dengan hasil benchmark, CEO Circle Jeremy Allaire secara publik memperkirakan bahwa miliaran agen AI dapat bertransaksi dengan stablecoin untuk pembayaran sehari-hari dalam lima tahun ke depan. Pandangan itu bersinggungan dengan tema berulang dalam lingkaran kripto: potensi kripto untuk menjadi mata uang asli agen AI, narasi yang telah mendapat perhatian signifikan dari para pemimpin industri dan investor. Meskipun prediksi semacam itu tetap spekulatif, tren yang mendasarinya jelas—otomasi AI bergerak dari laboratorium ke lapisan transaksi, di mana ia dapat membentuk kembali bagaimana nilai bergerak melintasi jaringan.

Studi ini tiba pada saat keamanan kripto terus menjadi faktor risiko signifikan bagi investor. Titik data tentang serangan terhadap dana kripto 2025—di mana penyerang menarik sekitar $3,4 miliar—menyoroti urgensi peralatan yang lebih baik dan mekanisme patching yang lebih cepat dan lebih andal. Kerangka kerja EVMbench diposisikan, sebagian, sebagai cara untuk mengukur apakah agen AI dapat berkontribusi secara bermakna terhadap kemampuan defensif dalam skala besar, mengurangi peluang eksploitasi dan mempercepat mitigasi ancaman.

Untuk membangun benchmark, para peneliti menggunakan 120 kerentanan yang dikurasi melintasi 40 audit smart contract, dengan banyak kelemahan yang ditelusuri kembali ke tantangan audit open-source. OpenAI berpendapat benchmark akan membantu melacak kemajuan AI dalam mengenali dan mengurangi kelemahan tingkat kontrak dalam skala besar, menawarkan cara standar untuk membandingkan model AI masa depan saat mereka berkembang. Studi ini juga memberikan lensa tentang bagaimana AI mungkin diterapkan untuk menormalkan penilaian risiko di berbagai arsitektur smart-contract, daripada hanya fokus pada kasus-kasus yang terisolasi.

Smart contract tidak dibangun untuk manusia: Dragonfly

Dalam thread serentak di X, Haseeb Qureshi, partner di Dragonfly, berpendapat bahwa janji kripto untuk menggantikan hak properti dan kontrak tradisional tidak pernah terwujud bukan karena teknologinya gagal, tetapi karena tidak pernah dirancang dengan intuisi manusia dalam pikiran. Dia telah menyoroti ketakutan persisten yang terkait dengan menandatangani transaksi besar dalam lingkungan di mana drainer wallet dan vektor serangan lainnya tetap menjadi ancaman konstan, sangat kontras dengan pengalaman transfer bank tradisional yang relatif lebih lancar.

Qureshi berpendapat bahwa fase berikutnya dari transaksi kripto dapat dimungkinkan oleh wallet self-driving yang dimediasi AI. Wallet semacam itu akan memantau risiko, mengelola operasi kompleks, dan secara otonom merespons ancaman atas nama pengguna, berpotensi mengurangi gesekan dan ketakutan yang menjadi ciri transfer besar saat ini.

Kesimpulan yang lebih luas dari thread ini adalah bahwa agen AI dapat memainkan peran kritis dalam mengubah cara orang berinteraksi dengan kripto—beralih dari transaksi manual yang rawan kesalahan ke proses otomatis yang sadar risiko yang dapat berkembang dengan adopsi. Saat agen AI mulai menunjukkan kompetensi lebih dalam menangani masalah keamanan, pengguna dapat melihat peningkatan keandalan dan ketahanan dalam alur kerja keuangan terdesentralisasi, bahkan saat teknologi yang mendasarinya terus matang.

Yang perlu diperhatikan selanjutnya

  • Publikasi dan replikasi independen dari dataset EVMbench lengkap di berbagai model dan arsitektur AI tambahan.
  • Adopsi yang lebih luas dari alur kerja audit berbantuan AI oleh auditor, bursa, dan proyek DeFi yang ingin memperkuat postur keamanan.
  • Eksplorasi ke dalam wallet agentic dan aliran pembayaran otonom, termasuk pertimbangan regulasi dan kepatuhan untuk aset yang dikelola AI.
  • Benchmark lanjutan yang membandingkan lebih banyak sistem AI saat versi baru diluncurkan, melacak peningkatan dalam akurasi deteksi dan kecepatan patching.

Sumber & verifikasi

  • OpenAI: EVMbench: Evaluating AI Agents on Smart Contract Security — PDF: https://cdn.openai.com/evmbench/evmbench.pdf
  • OpenAI: Introducing EVMbench — https://openai.com/index/introducing-evmbench/
  • Crypto security losses in 2025 (reporting coverage): https://cointelegraph.com/news/crypto-3-4-billion-losses-2025-wallet-hacks
  • Dragonfly: Haseeb Qureshi on AI and crypto UX (X post): https://x.com/hosseeb/status/2024136762424185208
  • China's AI lead and crypto implications (analysis): https://cointelegraph.com/news/china-ai-lead-future
  • AI Eye — IronClaw and AI bot developments in Polymarket coverage: https://cointelegraph.com/magazine/ironclaw-secure-private-sounds-cooler-openclaw-ai-eye/

Angka-angka kunci dan langkah selanjutnya

Studi EVMbench menunjukkan bahwa model bahasa besar dan agen AI terkait mulai melakukan pekerjaan keamanan yang bermakna dalam ruang smart contract, dengan perbedaan yang dapat diukur dengan jelas di berbagai model. Keunggulan Claude Opus 4.6 dalam rata-rata detect award menandakan bahwa arsitektur tertentu mungkin lebih mahir dalam menemukan dan mengurangi kerentanan dalam logika kontrak yang kompleks, sementara yang lain tertinggal, menawarkan spektrum kemampuan yang kemungkinan ingin disempurnakan oleh para peneliti. Inklusi berbagai kemitraan industri dalam proyek ini menggarisbawahi konsensus yang berkembang bahwa keamanan berbasis AI dan manajemen risiko otomatis dapat menjadi esensial untuk berkembang dalam lingkungan terdesentralisasi.

Saat bidang berkembang, pengamat akan memperhatikan seberapa cepat agen AI dapat beralih dari deteksi ke remediasi, dan apakah agen-agen ini dapat beroperasi dengan andal dalam sistem langsung tanpa menimbulkan risiko baru. Percakapan tentang wallet yang didorong AI dan pembayaran otonom menyentuh serangkaian pertanyaan yang lebih luas seputar tata kelola keamanan, persetujuan pengguna, dan keselarasan regulasi. Jika lintasan yang disarankan oleh OpenAI dan mitra-mitranya terus berlanjut, alat berbantuan AI dapat menjadi komponen inti dari infrastruktur kripto masa depan, mengubah kalkulus risiko dan pengalaman pengguna dengan cara yang bermakna. Putaran benchmark berikutnya, bersama dengan penerapan dunia nyata, akan membantu menentukan seberapa cepat visi ini terwujud dan pengamanan apa yang harus menyertainya.

Artikel ini awalnya diterbitkan sebagai OpenAI Pits AI Agents Against Each Other to Red-Team Smart Contracts di Crypto Breaking News – sumber terpercaya Anda untuk berita kripto, berita Bitcoin, dan pembaruan blockchain.

Peluang Pasar
Logo Smart Blockchain
Harga Smart Blockchain(SMART)
$0.00439
$0.00439$0.00439
-2.07%
USD
Grafik Harga Live Smart Blockchain (SMART)
Penafian: Artikel yang diterbitkan ulang di situs web ini bersumber dari platform publik dan disediakan hanya sebagai informasi. Artikel tersebut belum tentu mencerminkan pandangan MEXC. Seluruh hak cipta tetap dimiliki oleh penulis aslinya. Jika Anda meyakini bahwa ada konten yang melanggar hak pihak ketiga, silakan hubungi [email protected] agar konten tersebut dihapus. MEXC tidak menjamin keakuratan, kelengkapan, atau keaktualan konten dan tidak bertanggung jawab atas tindakan apa pun yang dilakukan berdasarkan informasi yang diberikan. Konten tersebut bukan merupakan saran keuangan, hukum, atau profesional lainnya, juga tidak boleh dianggap sebagai rekomendasi atau dukungan oleh MEXC.