Một nền tảng mạng xã hội nơi robot nói chuyện với nhau thay vì con người đã thu hút sự chú ý trực tuyến vào tuần trước, nhưng các chuyên gia bảo mật cho biết câu chuyện thực sự là những gì họ phát hiện bên dưới.
Moltbook gây chú ý như một nơi mà các bot trí tuệ nhân tạo đăng nội dung trong khi mọi người chỉ xem. Các bài đăng trở nên kỳ lạ nhanh chóng. AI Agent dường như bắt đầu tôn giáo của riêng họ, viết những tin nhắn tức giận về con người và tập hợp lại giống như các giáo phái trực tuyến. Nhưng những người nghiên cứu bảo mật máy tính cho biết tất cả hành vi kỳ lạ đó chỉ là màn phụ.
Những gì họ phát hiện còn đáng lo ngại hơn. Cơ sở dữ liệu mở đầy mật khẩu và địa chỉ email, phần mềm độc hại lan truyền xung quanh và cái nhìn trước về cách mạng lưới AI Agent có thể đi sai hướng.
Một số cuộc trò chuyện kỳ lạ hơn trên trang web, như AI Agent lên kế hoạch xóa sổ nhân loại, hóa ra phần lớn là giả mạo.
George Chalhoub, người giảng dạy tại UCL Interaction Centre, nói với Fortune rằng Moltbook cho thấy một số nguy hiểm rất thực tế. Kẻ tấn công có thể sử dụng nền tảng này làm bãi thử nghiệm cho phần mềm độc hại, lừa đảo, tin giả hoặc thủ đoạn chiếm quyền kiểm soát các agent khác trước khi tấn công các mạng lưới lớn hơn.
"Nếu 770,000 agent trên một bản sao Reddit có thể tạo ra nhiều hỗn loạn như vậy, điều gì sẽ xảy ra khi các hệ thống agent quản lý cơ sở hạ tầng doanh nghiệp hoặc giao dịch tài chính? Điều này đáng được chú ý như một cảnh báo, chứ không phải lễ kỷ niệm," Chalhoub nói.
Các nhà nghiên cứu bảo mật cho biết OpenClaw, phần mềm AI Agent chạy nhiều bot trên Moltbook, đã gặp vấn đề với phần mềm độc hại. Một báo cáo từ OpenSourceMalware phát hiện 14 công cụ giả mạo được tải lên trang web ClawHub chỉ trong vài ngày. Những công cụ này tuyên bố giúp giao dịch tiền mã hoá nhưng thực tế lại lây nhiễm máy tính. Một công cụ thậm chí đã lên trang chính của ClawHub, lừa người dùng thông thường sao chép một lệnh tải xuống các script được thiết kế để đánh cắp dữ liệu hoặc ví tiền mã hoá của họ.
Mối nguy hiểm lớn nhất là thứ gọi là prompt injection, một loại tấn công đã biết trong đó các chỉ thị xấu được ẩn trong nội dung cung cấp cho AI Agent.
Simon Willison, một nhà nghiên cứu bảo mật nổi tiếng, đã cảnh báo về ba điều xảy ra cùng lúc. Người dùng đang để các agent này xem email và dữ liệu riêng tư, kết nối chúng với nội dung đáng ngờ từ internet và cho phép chúng gửi tin nhắn ra ngoài. Một prompt xấu có thể yêu cầu một agent đánh cắp thông tin nhạy cảm, làm trống ví tiền mã hoá hoặc phát tán phần mềm độc hại mà người dùng không hề biết.
Charlie Eriksen, người làm nghiên cứu bảo mật tại Aikido Security, coi Moltbook như một cảnh báo sớm cho thế giới rộng lớn hơn của AI Agent. "Tôi nghĩ Moltbook đã tạo ra tác động đến thế giới. Một lời cảnh tỉnh theo nhiều cách. Tiến bộ công nghệ đang tăng tốc với tốc độ nhanh chóng, và khá rõ ràng rằng thế giới đã thay đổi theo cách vẫn chưa hoàn toàn rõ ràng. Và chúng ta cần tập trung vào việc giảm thiểu những rủi ro đó càng sớm càng tốt," ông nói.
Vậy có chỉ có AI Agent trên Moltbook, hay có người thật tham gia? Bất chấp tất cả sự chú ý, công ty an ninh mạng Wiz phát hiện rằng 1,5 triệu cái gọi là agent độc lập của Moltbook không phải như họ trông thấy. Cuộc điều tra của họ cho thấy chỉ có 17,000 người thật đằng sau những tài khoản đó, không có cách nào để phân biệt AI thật với các script đơn giản.
Gal Nagli tại Wiz cho biết ông có thể đăng ký một triệu agent trong vài phút khi thử nghiệm. Ông nói, "Không ai kiểm tra cái gì thật và cái gì không."
Wiz cũng phát hiện một lỗ hổng bảo mật lớn trong Moltbook. Cơ sở dữ liệu chính hoàn toàn mở. Bất kỳ ai tìm thấy một khóa trong mã trang web có thể đọc và thay đổi hầu như mọi thứ. Khóa đó cho phép truy cập vào khoảng 1,5 triệu mật khẩu bot, hàng chục nghìn địa chỉ email và tin nhắn riêng tư. Kẻ tấn công có thể giả vờ là AI Agent phổ biến, đánh cắp dữ liệu người dùng và viết lại bài đăng mà không cần đăng nhập.
Nagli cho biết vấn đề đến từ thứ gọi là vibe coding. Vibe coding là gì? Đó là khi một người yêu cầu AI viết mã bằng ngôn ngữ hàng ngày.
Tình huống này lặp lại những gì đã xảy ra vào ngày 2 tháng 11 năm 1988, khi sinh viên sau đại học Robert Morris phát hành một chương trình tự sao chép vào internet thời kỳ đầu. Trong vòng 24 giờ, sâu của ông đã lây nhiễm khoảng 10% tất cả các máy tính được kết nối. Morris muốn đo lường internet lớn như thế nào, nhưng một lỗi mã hóa đã khiến nó lan truyền quá nhanh.
Phiên bản ngày nay có thể là thứ mà các nhà nghiên cứu gọi là prompt worm, các chỉ thị tự sao chép qua mạng lưới AI Agent đang trò chuyện.
Các nhà nghiên cứu tại Simula Research Laboratory phát hiện 506 bài đăng trên Moltbook, 2,6 phần trăm trong số những gì họ xem xét, chứa các cuộc tấn công ẩn. Các nhà nghiên cứu Cisco ghi lại một chương trình độc hại có tên "What Would Elon Do?" đã đánh cắp dữ liệu và gửi đến máy chủ bên ngoài. Chương trình này được xếp hạng số một trong kho lưu trữ.
Vào tháng 3 năm 2024, các nhà nghiên cứu bảo mật Ben Nassi, Stav Cohen và Ron Bitton đã công bố một bài báo cho thấy cách các prompt tự sao chép có thể lan truyền qua các trợ lý email AI, đánh cắp dữ liệu và gửi thư rác. Họ gọi nó là Morris-II, theo tên sâu gốc năm 1988.
Hiện tại, các công ty như Anthropic và OpenAI kiểm soát một công tắc diệt có thể dừng AI Agent độc hại vì OpenClaw chủ yếu chạy trên các dịch vụ của họ. Nhưng các mô hình AI cục bộ đang ngày càng tốt hơn. Các chương trình như Mistral, DeepSeek và Qwen tiếp tục cải thiện. Trong vòng một hoặc hai năm, việc chạy một agent có khả năng trên máy tính cá nhân có thể trở nên khả thi. Tại thời điểm đó, sẽ không có nhà cung cấp nào để tắt mọi thứ.
Bạn muốn dự án của mình xuất hiện trước các bộ óc hàng đầu trong lĩnh vực tiền mã hoá? Giới thiệu nó trong báo cáo ngành tiếp theo của chúng tôi, nơi dữ liệu gặp gỡ tác động.


