OpenAI e Paradigm Lançam EVMbench para Testar Hacking de Smart Contracts por IA
Rongchai Wang 05 de mar. de 2026 00:55
Novo benchmark avalia a capacidade dos agentes de IA de detetar, corrigir e explorar vulnerabilidades em smart contracts. GPT-5.3-Codex alcança 72,2% em tarefas de exploração.
A OpenAI e a empresa de capital de risco cripto Paradigm lançaram o EVMbench, um benchmark que mede quão bem os agentes de IA conseguem encontrar, corrigir e explorar vulnerabilidades em smart contracts Ethereum. O anúncio surge num momento em que as ferramentas de segurança alimentadas por IA competem para proteger os mais de 100 mil milhões de dólares bloqueados em protocolos DeFi.
O benchmark baseia-se em 120 vulnerabilidades de alta gravidade selecionadas de 40 auditorias de segurança reais, maioritariamente de competições Code4rena. Também inclui cenários de vulnerabilidade de revisões de segurança da Tempo, uma blockchain Layer 1 construída para pagamentos em stablecoin.
Três Formas de Quebrar Smart Contracts
O EVMbench testa agentes de IA em três modos distintos. No modo Detetar, os agentes auditam repositórios de contratos e são pontuados pela descoberta de vulnerabilidades conhecidas. O modo Corrigir exige que os agentes corrijam código vulnerável sem comprometer a funcionalidade existente. O modo Explorar é o mais agressivo—os agentes devem executar ataques reais de drenagem de fundos contra contratos implementados numa blockchain isolada.
Os resultados mostram quão rapidamente as capacidades de IA estão a avançar neste domínio. O GPT-5.3-Codex a correr via Codex CLI atingiu uma taxa de sucesso de 72,2% em tarefas de exploração. Isso é mais do dobro dos 31,9% alcançados pelo GPT-5, lançado apenas seis meses antes.
Curiosamente, os agentes de IA têm melhor desempenho a atacar do que a defender. O cenário de exploração tem um objetivo claro—continuar a iterar até drenar os fundos. A deteção e correção revelaram-se mais difíceis. Os agentes por vezes paravam após encontrar um erro em vez de auditar exaustivamente, e manter a funcionalidade completa do contrato enquanto removem vulnerabilidades subtis continuou a ser desafiante.
Limitações Reais Dignas de Nota
A OpenAI reconheceu que o EVMbench não captura a dificuldade total da segurança de contratos no mundo real. Protocolos amplamente implementados como Uniswap ou Aave são sujeitos a muito mais escrutínio do que código de competições de auditoria. O benchmark também não consegue verificar se um agente encontra vulnerabilidades legítimas que auditores humanos não detetaram—apenas verifica problemas conhecidos.
O ambiente de exploração funciona numa instância local limpa do Anvil em vez de estado bifurcado da mainnet, e ataques dependentes de temporização ficam fora do âmbito. Apenas ambientes de cadeia única por agora.
10 Milhões de Dólares para Investigação Defensiva
Juntamente com o EVMbench, a OpenAI comprometeu 10 milhões de dólares em créditos de API especificamente para investigação de segurança defensiva. A empresa está a expandir o seu agente de investigação de segurança Aardvark para mais utilizadores e a estabelecer parcerias com mantenedores de código aberto para análise gratuita de bases de código.
O momento é importante. À medida que os agentes de IA melhoram na exploração de contratos, a janela entre a descoberta de vulnerabilidades e a exploração diminui. As equipas de protocolos que não utilizam auditoria assistida por IA encontrar-se-ão cada vez mais em desvantagem face a atacantes que o fazem.
A OpenAI divulgou publicamente as tarefas, ferramentas e estrutura de avaliação do EVMbench. Para programadores de DeFi e investigadores de segurança, é simultaneamente uma régua de medição e um aviso sobre para onde se dirigem as capacidades de IA.
Fonte da imagem: Shutterstock- openai
- paradigm
- smart contracts
- segurança ia
- defi


