Novo benchmark avalia a capacidade dos agentes de IA de detetar, corrigir e explorar vulnerabilidades de contratos inteligentes. O GPT-5.3-Codex obtém 72,2% nas tarefas de exploração. (Ler MaisNovo benchmark avalia a capacidade dos agentes de IA de detetar, corrigir e explorar vulnerabilidades de contratos inteligentes. O GPT-5.3-Codex obtém 72,2% nas tarefas de exploração. (Ler Mais

OpenAI e Paradigm lançam EVMbench para testar hacking de contratos inteligentes por IA

2026/03/05 08:55
Leu 3 min
Para enviar feedbacks ou expressar preocupações a respeito deste conteúdo, contate-nos em [email protected]

OpenAI e Paradigm Lançam EVMbench para Testar Hacking de Smart Contracts por IA

Rongchai Wang 05 de mar. de 2026 00:55

Novo benchmark avalia a capacidade dos agentes de IA de detetar, corrigir e explorar vulnerabilidades em smart contracts. GPT-5.3-Codex alcança 72,2% em tarefas de exploração.

OpenAI e Paradigm Lançam EVMbench para Testar Hacking de Smart Contracts por IA

A OpenAI e a empresa de capital de risco cripto Paradigm lançaram o EVMbench, um benchmark que mede quão bem os agentes de IA conseguem encontrar, corrigir e explorar vulnerabilidades em smart contracts Ethereum. O anúncio surge num momento em que as ferramentas de segurança alimentadas por IA competem para proteger os mais de 100 mil milhões de dólares bloqueados em protocolos DeFi.

O benchmark baseia-se em 120 vulnerabilidades de alta gravidade selecionadas de 40 auditorias de segurança reais, maioritariamente de competições Code4rena. Também inclui cenários de vulnerabilidade de revisões de segurança da Tempo, uma blockchain Layer 1 construída para pagamentos em stablecoin.

Três Formas de Quebrar Smart Contracts

O EVMbench testa agentes de IA em três modos distintos. No modo Detetar, os agentes auditam repositórios de contratos e são pontuados pela descoberta de vulnerabilidades conhecidas. O modo Corrigir exige que os agentes corrijam código vulnerável sem comprometer a funcionalidade existente. O modo Explorar é o mais agressivo—os agentes devem executar ataques reais de drenagem de fundos contra contratos implementados numa blockchain isolada.

Os resultados mostram quão rapidamente as capacidades de IA estão a avançar neste domínio. O GPT-5.3-Codex a correr via Codex CLI atingiu uma taxa de sucesso de 72,2% em tarefas de exploração. Isso é mais do dobro dos 31,9% alcançados pelo GPT-5, lançado apenas seis meses antes.

Curiosamente, os agentes de IA têm melhor desempenho a atacar do que a defender. O cenário de exploração tem um objetivo claro—continuar a iterar até drenar os fundos. A deteção e correção revelaram-se mais difíceis. Os agentes por vezes paravam após encontrar um erro em vez de auditar exaustivamente, e manter a funcionalidade completa do contrato enquanto removem vulnerabilidades subtis continuou a ser desafiante.

Limitações Reais Dignas de Nota

A OpenAI reconheceu que o EVMbench não captura a dificuldade total da segurança de contratos no mundo real. Protocolos amplamente implementados como Uniswap ou Aave são sujeitos a muito mais escrutínio do que código de competições de auditoria. O benchmark também não consegue verificar se um agente encontra vulnerabilidades legítimas que auditores humanos não detetaram—apenas verifica problemas conhecidos.

O ambiente de exploração funciona numa instância local limpa do Anvil em vez de estado bifurcado da mainnet, e ataques dependentes de temporização ficam fora do âmbito. Apenas ambientes de cadeia única por agora.

10 Milhões de Dólares para Investigação Defensiva

Juntamente com o EVMbench, a OpenAI comprometeu 10 milhões de dólares em créditos de API especificamente para investigação de segurança defensiva. A empresa está a expandir o seu agente de investigação de segurança Aardvark para mais utilizadores e a estabelecer parcerias com mantenedores de código aberto para análise gratuita de bases de código.

O momento é importante. À medida que os agentes de IA melhoram na exploração de contratos, a janela entre a descoberta de vulnerabilidades e a exploração diminui. As equipas de protocolos que não utilizam auditoria assistida por IA encontrar-se-ão cada vez mais em desvantagem face a atacantes que o fazem.

A OpenAI divulgou publicamente as tarefas, ferramentas e estrutura de avaliação do EVMbench. Para programadores de DeFi e investigadores de segurança, é simultaneamente uma régua de medição e um aviso sobre para onde se dirigem as capacidades de IA.

Fonte da imagem: Shutterstock
  • openai
  • paradigm
  • smart contracts
  • segurança ia
  • defi
Oportunidade de mercado
Logo de Smart Blockchain
Cotação Smart Blockchain (SMART)
$0.004271
$0.004271$0.004271
-0.95%
USD
Gráfico de preço em tempo real de Smart Blockchain (SMART)
Isenção de responsabilidade: Os artigos republicados neste site são provenientes de plataformas públicas e são fornecidos apenas para fins informativos. Eles não refletem necessariamente a opinião da MEXC. Todos os direitos permanecem com os autores originais. Se você acredita que algum conteúdo infringe direitos de terceiros, entre em contato pelo e-mail [email protected] para solicitar a remoção. A MEXC não oferece garantias quanto à precisão, integridade ou atualidade das informações e não se responsabiliza por quaisquer ações tomadas com base no conteúdo fornecido. O conteúdo não constitui aconselhamento financeiro, jurídico ou profissional, nem deve ser considerado uma recomendação ou endosso por parte da MEXC.