OpenAI y Paradigm Lanzan EVMbench para Probar el Hackeo de Smart Contracts con IA
Rongchai Wang 05 mar 2026 00:55
Un nuevo benchmark evalúa la capacidad de los Agentes de IA para detectar, parchear y explotar vulnerabilidades de Smart Contracts. GPT-5.3-Codex obtiene un 72,2% en tareas de explotación.
OpenAI y la firma de capital de riesgo cripto Paradigm han lanzado EVMbench, un benchmark que mide qué tan bien los Agentes de IA pueden encontrar, corregir y explotar vulnerabilidades en Smart Contracts de Ethereum. El anuncio llega mientras las herramientas de seguridad impulsadas por IA compiten para proteger los más de $100 mil millones bloqueados en protocolos DeFi.
El benchmark se basa en 120 vulnerabilidades de alta gravedad seleccionadas de 40 auditorías de seguridad reales, principalmente de competiciones de Code4rena. También incluye escenarios de vulnerabilidad de revisiones de seguridad de Tempo, una blockchain de Capa 1 construida para pagos con Stablecoin.
Tres Formas de Romper Smart Contracts
EVMbench prueba Agentes de IA en tres modos distintos. En modo Detect, los agentes auditan repositorios de contratos y se califican por encontrar vulnerabilidades conocidas. El modo Patch requiere que los agentes corrijan código vulnerable sin romper la funcionalidad existente. El modo Exploit es el más agresivo: los agentes deben ejecutar ataques reales de drenaje de fondos contra contratos desplegados en una blockchain aislada.
Los resultados muestran qué tan rápido están avanzando las capacidades de IA en este dominio. GPT-5.3-Codex ejecutándose a través de Codex CLI alcanzó una tasa de éxito del 72,2% en tareas de explotación. Eso es más del doble del 31,9% obtenido por GPT-5, que se lanzó solo seis meses antes.
Curiosamente, los Agentes de IA se desempeñan mejor atacando que defendiendo. El escenario de explotación tiene un objetivo claro: seguir iterando hasta drenar los fondos. La detección y el parcheo resultaron más difíciles. Los agentes a veces se detuvieron después de encontrar un error en lugar de auditar exhaustivamente, y mantener la funcionalidad completa del contrato mientras se eliminan vulnerabilidades sutiles siguió siendo un desafío.
Limitaciones Reales Que Valen la Pena Destacar
OpenAI reconoció que EVMbench no captura la dificultad completa de la seguridad de contratos del mundo real. Protocolos ampliamente desplegados como Uniswap o Aave se someten a mucho más escrutinio que el código de competiciones de auditoría. El benchmark tampoco puede verificar si un agente encuentra vulnerabilidades legítimas que los auditores humanos pasaron por alto; solo verifica contra problemas conocidos.
El entorno de explotación se ejecuta en una instancia local limpia de Anvil en lugar del estado bifurcado de mainnet, y los ataques dependientes del tiempo quedan fuera del alcance. Solo entornos de una sola cadena por ahora.
$10M para Investigación Defensiva
Junto con EVMbench, OpenAI comprometió $10 millones en créditos de API específicamente para investigación de seguridad defensiva. La compañía está expandiendo su Agente de IA de investigación de seguridad Aardvark a más usuarios y asociándose con mantenedores de código abierto para escaneo gratuito de bases de código.
El momento importa. A medida que los Agentes de IA mejoran en la explotación de contratos, la ventana entre el descubrimiento de vulnerabilidades y la explotación se reduce. Los equipos de protocolos que no estén usando auditorías asistidas por IA se encontrarán cada vez más en desventaja frente a los atacantes que sí lo hacen.
OpenAI lanzó públicamente las tareas, herramientas y marco de evaluación de EVMbench. Para los desarrolladores de DeFi e investigadores de seguridad, es tanto una vara de medición como una advertencia sobre hacia dónde se dirigen las capacidades de IA.
Fuente de imagen: Shutterstock- openai
- paradigm
- smart contracts
- seguridad ia
- defi

