OpenAI đã công bố một khung đo lường hiệu suất nhằm đánh giá mức độ hiệu quả của các AI Agent trong việc phát hiện, giảm thiểu và thậm chí khai thác các lỗ hổng bảo mật trong cryptoOpenAI đã công bố một khung đo lường hiệu suất nhằm đánh giá mức độ hiệu quả của các AI Agent trong việc phát hiện, giảm thiểu và thậm chí khai thác các lỗ hổng bảo mật trong crypto

OpenAI Đặt Các AI Agent Đối Đầu Nhau để Red-Team Hợp Đồng Thông Minh

2026/02/19 09:26
Đọc trong 10 phút
Openai Pits Ai Agents Against Each Other To Red-Team Smart Contracts

OpenAI đã công bố một khung đánh giá nhằm đo lường mức độ hiệu quả mà AI Agent có thể phát hiện, giảm thiểu và thậm chí khai thác các lỗ hổng bảo mật trong Hợp đồng thông minh tiền mã hóa. Dự án có tên "EVMbench: Evaluating AI Agents on Smart Contract Security," được phát hành hợp tác với Paradigm và OtterSec, hai tổ chức có kinh nghiệm sâu rộng về bảo mật blockchain và đầu tư. Nghiên cứu đánh giá AI Agent với một bộ 120 điểm yếu tiềm ẩn được chọn lọc từ 40 kiểm toán hợp đồng thông minh, tìm cách định lượng không chỉ khả năng phát hiện và vá lỗi mà còn cả khả năng khai thác lý thuyết của các AI Agent này trong môi trường được kiểm soát.

Những điểm chính

  • EVMbench kiểm tra AI Agent với 120 lỗ hổng được thu thập từ 40 kiểm toán hợp đồng thông minh, nhấn mạnh các lỗ hổng có nguồn gốc từ các cuộc thi kiểm toán mã nguồn mở.
  • Trong số các mô hình được kiểm tra, Claude Opus 4.6 của Anthropic dẫn đầu với giải thưởng phát hiện trung bình là $37,824, tiếp theo là OC-GPT-5.2 của OpenAI ở mức $31,623 và Gemini 3 Pro của Google ở mức $25,112.
  • OpenAI định vị điểm chuẩn này là một bước tiến trong việc đo lường hiệu suất AI trong "môi trường có ý nghĩa kinh tế," không chỉ là các nhiệm vụ đơn giản, làm nổi bật những tác động thực tế đối với kẻ tấn công và người bảo vệ trong bối cảnh bảo mật tiền mã hóa.
  • Các nhà nghiên cứu lưu ý rằng Hợp đồng thông minh bảo vệ hàng tỷ đô la tài sản, nhấn mạnh giá trị chiến lược của công cụ hỗ trợ bởi AI cho cả hoạt động tấn công và phòng thủ.
  • Các nhà quan sát trong ngành đã liên kết những phát triển này với các cuộc thảo luận rộng lớn hơn về thanh toán hỗ trợ bởi AI và vai trò của Stablecoin trong các giao dịch hàng ngày, với các giám đốc điều hành lớn dự đoán việc sử dụng AI Agent ngày càng tăng trong những năm tới.
  • Bối cảnh cho công việc này được nhấn mạnh bởi dữ liệu sự cố bảo mật tiền mã hóa năm 2025, cho thấy dòng vốn tiếp tục chảy qua các lỗ hổng và cuộc tấn công, củng cố nhu cầu về cơ chế kiểm toán và phòng thủ mạnh mẽ hỗ trợ bởi AI.

Giải thưởng phát hiện cho AI Agent được mô tả chi tiết trong tài liệu PDF của OpenAI đi kèm nghiên cứu, cũng mô tả phương pháp đánh giá và các kịch bản được sử dụng để mô phỏng rủi ro Hợp đồng thông minh thực tế. Các tác giả nhấn mạnh rằng trong khi AI Agent đã phát triển để tự động hóa nhiều nhiệm vụ thường ngày, việc đánh giá hiệu suất của chúng trong "môi trường có ý nghĩa kinh tế" là điều cần thiết để hiểu cách chúng hoạt động dưới áp lực trong hệ thống sản xuất.

OpenAI lưu ý rằng họ kỳ vọng công nghệ AI Agent sẽ mở rộng phạm vi thanh toán và thanh toán tự động, bao gồm Stablecoin được sử dụng trong quy trình làm việc tự động. Cuộc thảo luận về thanh toán hỗ trợ bởi AI mở rộng ra ngoài việc kiểm tra bảo mật đến câu hỏi rộng lớn hơn về cách các hệ thống tự trị sẽ tham gia vào hoạt động tài chính hàng ngày. Các dự báo của chính công ty cho rằng thanh toán của AI Agent có thể trở nên phổ biến hơn, đặt nền tảng cho khả năng AI trong các trường hợp sử dụng thực tế chạm đến các giao dịch tiêu dùng hàng ngày.

Cùng với kết quả điểm chuẩn, Giám đốc điều hành Circle Jeremy Allaire đã công khai dự báo rằng hàng tỷ AI Agent có thể giao dịch với Stablecoin cho thanh toán hàng ngày trong vòng năm năm tới. Quan điểm đó giao thoa với một chủ đề lặp đi lặp lại trong giới tiền mã hóa: tiềm năng cho tiền mã hóa trở thành đồng tiền gốc của AI Agent, một câu chuyện đã thu hút sự chú ý đáng kể từ các nhà lãnh đạo ngành và nhà đầu tư. Mặc dù những dự đoán như vậy vẫn còn mang tính suy đoán, xu hướng cơ bản là rõ ràng—tự động hóa AI đang chuyển từ phòng thí nghiệm sang lớp giao dịch, nơi nó có thể định hình lại cách giá trị di chuyển qua các mạng lưới.

Nghiên cứu xuất hiện vào thời điểm bảo mật tiền mã hóa tiếp tục là yếu tố rủi ro đáng kể đối với các nhà đầu tư. Điểm dữ liệu về cuộc tấn công quỹ tiền mã hóa năm 2025—nơi kẻ tấn công chiếm khoảng $3,4 tỷ—làm nổi bật tính cấp bách của công cụ cải tiến và cơ chế vá lỗi nhanh hơn, đáng tin cậy hơn. Khung EVMbench được định vị, một phần, như một cách để đo lường liệu AI Agent có thể đóng góp có ý nghĩa vào khả năng phòng thủ ở quy mô lớn hay không, giảm cơ hội khai thác và đẩy nhanh việc giảm thiểu mối đe dọa.

Để xây dựng điểm chuẩn, các nhà nghiên cứu dựa vào 120 lỗ hổng được tuyển chọn trải rộng trên 40 kiểm toán hợp đồng thông minh, với nhiều điểm yếu được truy nguyên từ các thử thách kiểm toán mã nguồn mở. OpenAI lập luận rằng điểm chuẩn sẽ giúp theo dõi tiến trình AI trong việc nhận ra và giảm thiểu điểm yếu cấp hợp đồng ở quy mô lớn, cung cấp một cách chuẩn hóa để so sánh các mô hình AI trong tương lai khi chúng phát triển. Nghiên cứu cũng cung cấp góc nhìn về cách AI có thể được áp dụng để chuẩn hóa đánh giá rủi ro trên nhiều kiến trúc Hợp đồng thông minh, thay vì chỉ tập trung vào các trường hợp riêng lẻ.

Hợp đồng thông minh không được xây dựng cho con người: Dragonfly

Trong một chuỗi bài đăng đồng thời trên X, Haseeb Qureshi, đối tác tại Dragonfly, lập luận rằng lời hứa của tiền mã hóa về việc thay thế quyền sở hữu tài sản và hợp đồng truyền thống không bao giờ trở thành hiện thực không phải vì công nghệ thất bại, mà vì nó không bao giờ được thiết kế với trực giác con người trong tâm trí. Ông đã làm nổi bật nỗi sợ hãi dai dẳng liên quan đến việc ký các giao dịch lớn trong một môi trường nơi ví rút cạn và các vector tấn công khác vẫn là mối đe dọa liên tục, trái ngược hoàn toàn với trải nghiệm mượt mà hơn tương đối của chuyển khoản ngân hàng truyền thống.

Qureshi cho rằng giai đoạn tiếp theo của các giao dịch tiền mã hóa có thể được kích hoạt bởi ví tự lái trung gian bởi AI. Những ví như vậy sẽ giám sát rủi ro, quản lý các hoạt động phức tạp và tự động phản ứng với các mối đe dọa thay mặt người dùng, có khả năng giảm ma sát và nỗi sợ đặc trưng cho các giao dịch chuyển khoản lớn ngày nay.

Điều rút ra rộng lớn hơn từ chuỗi bài này là AI Agent có thể đóng vai trò quan trọng trong việc biến đổi cách mọi người tương tác với tiền mã hóa—chuyển từ các giao dịch thủ công, dễ mắc lỗi sang các quy trình tự động, nhận thức rủi ro có thể mở rộng với việc áp dụng. Khi AI Agent bắt đầu thể hiện năng lực cao hơn trong việc xử lý các mối quan tâm về bảo mật, người dùng có thể thấy độ tin cậy và khả năng phục hồi được cải thiện trong quy trình làm việc tài chính phi tập trung, ngay cả khi các công nghệ cơ bản tiếp tục trưởng thành.

Những gì cần theo dõi tiếp theo

  • Xuất bản và sao chép độc lập bộ dữ liệu EVMbench đầy đủ trên các mô hình AI và kiến trúc bổ sung.
  • Áp dụng rộng rãi hơn quy trình kiểm toán hỗ trợ bởi AI bởi các kiểm toán viên, sàn giao dịch và các dự án DeFi đang tìm cách tăng cường tư thế bảo mật.
  • Khám phá về ví AI Agent và dòng thanh toán tự động, bao gồm các cân nhắc quy định và tuân thủ cho tài sản được quản lý bởi AI.
  • Điểm chuẩn tiếp theo so sánh nhiều hệ thống AI hơn khi các phiên bản mới được tung ra, theo dõi cải tiến về độ chính xác phát hiện và tốc độ vá lỗi.

Nguồn & xác minh

  • OpenAI: EVMbench: Evaluating AI Agents on Smart Contract Security — PDF: https://cdn.openai.com/evmbench/evmbench.pdf
  • OpenAI: Introducing EVMbench — https://openai.com/index/introducing-evmbench/
  • Crypto security losses in 2025 (reporting coverage): https://cointelegraph.com/news/crypto-3-4-billion-losses-2025-wallet-hacks
  • Dragonfly: Haseeb Qureshi on AI and crypto UX (X post): https://x.com/hosseeb/status/2024136762424185208
  • China's AI lead and crypto implications (analysis): https://cointelegraph.com/news/china-ai-lead-future
  • AI Eye — IronClaw and AI bot developments in Polymarket coverage: https://cointelegraph.com/magazine/ironclaw-secure-private-sounds-cooler-openclaw-ai-eye/

Các số liệu chính và các bước tiếp theo

Nghiên cứu EVMbench chứng minh rằng các mô hình ngôn ngữ lớn và AI Agent liên quan đang bắt đầu thực hiện công việc bảo mật có ý nghĩa trong không gian Hợp đồng thông minh, với sự khác biệt có thể định lượng rõ ràng giữa các mô hình. Vị trí dẫn đầu của Claude Opus 4.6 trong giải thưởng phát hiện trung bình cho thấy rằng một số kiến trúc nhất định có thể khéo léo hơn trong việc phát hiện và giảm thiểu các lỗ hổng trong logic hợp đồng phức tạp, trong khi những kiến trúc khác đi sau, cung cấp một phổ khả năng mà các nhà nghiên cứu có thể muốn tinh chỉnh. Việc đưa vào nhiều quan hệ đối tác trong ngành trong dự án nhấn mạnh sự đồng thuận ngày càng tăng rằng bảo mật hỗ trợ bởi AI và quản lý rủi ro tự động có thể trở nên thiết yếu để mở rộng quy mô trong các môi trường phi tập trung.

Khi lĩnh vực phát triển, các nhà quan sát sẽ theo dõi xem AI Agent có thể chuyển từ phát hiện sang khắc phục nhanh như thế nào và liệu các AI Agent này có thể hoạt động đáng tin cậy trong các hệ thống trực tiếp mà không gây ra rủi ro mới hay không. Cuộc trò chuyện về ví hỗ trợ bởi AI và thanh toán tự động chạm đến một loạt câu hỏi rộng lớn hơn xung quanh quản trị bảo mật, sự đồng ý của người dùng và sự phù hợp quy định. Nếu quỹ đạo được đề xuất bởi OpenAI và các đối tác của nó tiếp tục, các công cụ hỗ trợ bởi AI có thể trở thành một thành phần cốt lõi của cơ sở hạ tầng tiền mã hóa tương lai, thay đổi cả tính toán rủi ro và trải nghiệm người dùng theo những cách có ý nghĩa. Vòng điểm chuẩn tiếp theo, cùng với triển khai thực tế, sẽ giúp xác định mức độ nhanh chóng tầm nhìn này hiện thực hóa và những biện pháp bảo vệ nào phải đi kèm với nó.

Bài viết này ban đầu được xuất bản dưới tên OpenAI Pits AI Agents Against Each Other to Red-Team Smart Contracts trên Crypto Breaking News – nguồn tin cậy của bạn về tin tức tiền mã hóa, tin tức Bitcoin và cập nhật blockchain.

Cơ hội thị trường
Logo Smart Blockchain
Giá Smart Blockchain(SMART)
$0.004386
$0.004386$0.004386
-2.16%
USD
Biểu đồ giá Smart Blockchain (SMART) theo thời gian thực
Tuyên bố miễn trừ trách nhiệm: Các bài viết được đăng lại trên trang này được lấy từ các nền tảng công khai và chỉ nhằm mục đích tham khảo. Các bài viết này không nhất thiết phản ánh quan điểm của MEXC. Mọi quyền sở hữu thuộc về tác giả gốc. Nếu bạn cho rằng bất kỳ nội dung nào vi phạm quyền của bên thứ ba, vui lòng liên hệ [email protected] để được gỡ bỏ. MEXC không đảm bảo về tính chính xác, đầy đủ hoặc kịp thời của các nội dung và không chịu trách nhiệm cho các hành động được thực hiện dựa trên thông tin cung cấp. Nội dung này không cấu thành lời khuyên tài chính, pháp lý hoặc chuyên môn khác, và cũng không được xem là khuyến nghị hoặc xác nhận từ MEXC.