OpenAI e Paradigm Lançam EVMbench para Testar Hacking de Smart Contracts por IA

Rongchai Wang 05 de mar. de 2026 00:55

Novo benchmark avalia a capacidade dos agentes de IA de detetar, corrigir e explorar vulnerabilidades em smart contracts. GPT-5.3-Codex alcança 72,2% em tarefas de exploração.

OpenAI e Paradigm Lançam EVMbench para Testar Hacking de Smart Contracts por IA

A OpenAI e a empresa de capital de risco cripto Paradigm lançaram o EVMbench, um benchmark que mede quão bem os agentes de IA conseguem encontrar, corrigir e explorar vulnerabilidades em smart contracts Ethereum. O anúncio surge num momento em que as ferramentas de segurança alimentadas por IA competem para proteger os mais de 100 mil milhões de dólares bloqueados em protocolos DeFi.

O benchmark baseia-se em 120 vulnerabilidades de alta gravidade selecionadas de 40 auditorias de segurança reais, maioritariamente de competições Code4rena. Também inclui cenários de vulnerabilidade de revisões de segurança da Tempo, uma blockchain Layer 1 construída para pagamentos em stablecoin.

Três Formas de Quebrar Smart Contracts

O EVMbench testa agentes de IA em três modos distintos. No modo Detetar, os agentes auditam repositórios de contratos e são pontuados pela descoberta de vulnerabilidades conhecidas. O modo Corrigir exige que os agentes corrijam código vulnerável sem comprometer a funcionalidade existente. O modo Explorar é o mais agressivo—os agentes devem executar ataques reais de drenagem de fundos contra contratos implementados numa blockchain isolada.

Os resultados mostram quão rapidamente as capacidades de IA estão a avançar neste domínio. O GPT-5.3-Codex a correr via Codex CLI atingiu uma taxa de sucesso de 72,2% em tarefas de exploração. Isso é mais do dobro dos 31,9% alcançados pelo GPT-5, lançado apenas seis meses antes.

Curiosamente, os agentes de IA têm melhor desempenho a atacar do que a defender. O cenário de exploração tem um objetivo claro—continuar a iterar até drenar os fundos. A deteção e correção revelaram-se mais difíceis. Os agentes por vezes paravam após encontrar um erro em vez de auditar exaustivamente, e manter a funcionalidade completa do contrato enquanto removem vulnerabilidades subtis continuou a ser desafiante.

Limitações Reais Dignas de Nota

A OpenAI reconheceu que o EVMbench não captura a dificuldade total da segurança de contratos no mundo real. Protocolos amplamente implementados como Uniswap ou Aave são sujeitos a muito mais escrutínio do que código de competições de auditoria. O benchmark também não consegue verificar se um agente encontra vulnerabilidades legítimas que auditores humanos não detetaram—apenas verifica problemas conhecidos.

O ambiente de exploração funciona numa instância local limpa do Anvil em vez de estado bifurcado da mainnet, e ataques dependentes de temporização ficam fora do âmbito. Apenas ambientes de cadeia única por agora.

10 Milhões de Dólares para Investigação Defensiva

Juntamente com o EVMbench, a OpenAI comprometeu 10 milhões de dólares em créditos de API especificamente para investigação de segurança defensiva. A empresa está a expandir o seu agente de investigação de segurança Aardvark para mais utilizadores e a estabelecer parcerias com mantenedores de código aberto para análise gratuita de bases de código.

O momento é importante. À medida que os agentes de IA melhoram na exploração de contratos, a janela entre a descoberta de vulnerabilidades e a exploração diminui. As equipas de protocolos que não utilizam auditoria assistida por IA encontrar-se-ão cada vez mais em desvantagem face a atacantes que o fazem.

A OpenAI divulgou publicamente as tarefas, ferramentas e estrutura de avaliação do EVMbench. Para programadores de DeFi e investigadores de segurança, é simultaneamente uma régua de medição e um aviso sobre para onde se dirigem as capacidades de IA.

Fonte da imagem: Shutterstock

openai
paradigm
smart contracts
segurança ia
defi

OpenAI e Paradigm lançam EVMbench para testar hacking de contratos inteligentes por IA

OpenAI e Paradigm Lançam EVMbench para Testar Hacking de Smart Contracts por IA

Três Formas de Quebrar Smart Contracts

Limitações Reais Dignas de Nota

10 Milhões de Dólares para Investigação Defensiva

Você também pode gostar

Marca de cosméticos conquista milionários brasileiros

E se envelhecer também significar melhorar? Quase metade dos idosos tem ganhos físicos e cognitivos, diz estudo de Yale

Ciro Nogueira nega ter voado em helicóptero de Vorcaro

Notícias em alta

Marca de cosméticos conquista milionários brasileiros

E se envelhecer também significar melhorar? Quase metade dos idosos tem ganhos físicos e cognitivos, diz estudo de Yale

Ciro Nogueira nega ter voado em helicóptero de Vorcaro

As imagens de satélite que mostram as instalações nucleares e da marinha iraniana atingidas pelos ataques dos EUA e Israel

Receita do MAXR11 recua em dezembro e concentração avança

Preços das criptomoedas