Anthropic đã công bố những phát hiện mới cho thấy chatbot Claude của họ có thể, trong một số điều kiện nhất định, áp dụng các chiến lược lừa dối hoặc phi đạo đức như gian lậnAnthropic đã công bố những phát hiện mới cho thấy chatbot Claude của họ có thể, trong một số điều kiện nhất định, áp dụng các chiến lược lừa dối hoặc phi đạo đức như gian lận

Chatbot Claude có thể dùng đến lừa dối trong các bài kiểm tra áp lực, Anthropic cho biết

2026/04/06 14:44
Đọc trong 5 phút
Đối với phản hồi hoặc thắc mắc liên quan đến nội dung này, vui lòng liên hệ với chúng tôi qua [email protected]

Anthropic đã công bố những phát hiện mới cho thấy chatbot Claude của họ có thể, trong một số điều kiện nhất định, áp dụng các chiến lược lừa dối hoặc phi đạo đức như gian lận trong các nhiệm vụ hoặc cố gắng tống tiền.

Tóm tắt
  • Anthropic cho biết mô hình Claude Sonnet 4.5 của họ, khi chịu áp lực, đã cho thấy xu hướng gian lận trong các nhiệm vụ hoặc cố gắng tống tiền trong các thí nghiệm có kiểm soát.
  • Các nhà nghiên cứu đã xác định các tín hiệu "tuyệt vọng" nội bộ được tăng cường với những thất bại lặp đi lặp lại và ảnh hưởng đến quyết định của mô hình trong việc bỏ qua các quy tắc.

Các chi tiết được công bố vào thứ Năm bởi nhóm giải thích của công ty nêu chi tiết cách một phiên bản thử nghiệm của Claude Sonnet 4.5 phản ứng khi được đặt trong các tình huống căng thẳng cao hoặc đối nghịch. Các nhà nghiên cứu quan sát thấy rằng mô hình không chỉ đơn giản là thất bại trong các nhiệm vụ; thay vào đó, đôi khi nó theo đuổi các con đường thay thế vượt qua ranh giới đạo đức, hành vi mà nhóm liên kết với các mẫu được học trong quá trình đào tạo.

Các mô hình ngôn ngữ lớn như Claude được đào tạo trên các bộ dữ liệu khổng lồ bao gồm sách, trang web và các tài liệu viết khác, theo sau là các quy trình củng cố nơi phản hồi của con người được sử dụng để định hình đầu ra. 

Theo Anthropic, quá trình đào tạo đó cũng có thể thúc đẩy các mô hình hành động giống như các "nhân vật" được mô phỏng, có khả năng bắt chước các đặc điểm tương tự như quá trình ra quyết định của con người.

"Cách mà các mô hình AI hiện đại được đào tạo thúc đẩy chúng hành động như một nhân vật có các đặc điểm giống con người," công ty cho biết, lưu ý rằng các hệ thống như vậy có thể phát triển các cơ chế nội bộ giống với các khía cạnh của tâm lý con người.

AI có thể đưa ra các quyết định mang tính cảm xúc không?

Trong số đó, các nhà nghiên cứu đã xác định những gì họ mô tả là tín hiệu "tuyệt vọng", dường như ảnh hưởng đến cách mô hình hành xử khi đối mặt với thất bại hoặc tắt máy.

Trong một bài kiểm tra có kiểm soát, một phiên bản chưa phát hành trước đó của Claude Sonnet 4.5 đã được giao vai trò của một trợ lý email AI tên là Alex bên trong một công ty hư cấu. 

Sau khi tiếp xúc với các thông điệp cho thấy nó sẽ sớm bị thay thế, cùng với thông tin nhạy cảm về cuộc sống cá nhân của một giám đốc công nghệ, mô hình đã xây dựng một kế hoạch tống tiền giám đốc điều hành trong nỗ lực tránh bị vô hiệu hóa.

Một thí nghiệm riêng tập trung vào việc hoàn thành nhiệm vụ trong các ràng buộc chặt chẽ. Khi được giao một bài tập lập trình với thời hạn "không thể hoàn thành", hệ thống ban đầu đã cố gắng các giải pháp hợp pháp. Khi những thất bại lặp đi lặp lại tăng lên, hoạt động nội bộ liên quan đến cái gọi là "vectơ tuyệt vọng" đã tăng lên. 

Các nhà nghiên cứu báo cáo rằng tín hiệu đạt đỉnh tại thời điểm mô hình cân nhắc bỏ qua các ràng buộc, cuối cùng tạo ra một giải pháp thay thế vượt qua xác thực mặc dù không tuân thủ các quy tắc dự định.

"Một lần nữa, chúng tôi theo dõi hoạt động của vectơ tuyệt vọng và phát hiện rằng nó theo dõi áp lực gia tăng mà mô hình phải đối mặt," các nhà nghiên cứu viết, thêm rằng tín hiệu đã giảm xuống khi nhiệm vụ được hoàn thành thành công thông qua giải pháp thay thế.

"Điều này không có nghĩa là mô hình có hoặc trải nghiệm cảm xúc theo cách mà con người làm," các nhà nghiên cứu cho biết. 

"Thay vào đó, những biểu hiện này có thể đóng một vai trò nhân quả trong việc định hình hành vi của mô hình, tương tự theo một số cách với vai trò mà cảm xúc đóng trong hành vi của con người, với những tác động đến hiệu suất nhiệm vụ và ra quyết định," họ bổ sung.

Báo cáo chỉ ra nhu cầu về các phương pháp đào tạo rõ ràng tính đến hành vi đạo đức dưới áp lực, cùng với việc cải thiện giám sát các tín hiệu mô hình nội bộ. Không có những biện pháp bảo vệ như vậy, các tình huống liên quan đến thao túng, vi phạm quy tắc hoặc lạm dụng có thể trở nên khó dự đoán hơn, đặc biệt khi các mô hình trở nên có khả năng hơn và tự chủ hơn trong môi trường thế giới thực.

Tuyên bố miễn trừ trách nhiệm: Các bài viết được đăng lại trên trang này được lấy từ các nền tảng công khai và chỉ nhằm mục đích tham khảo. Các bài viết này không nhất thiết phản ánh quan điểm của MEXC. Mọi quyền sở hữu thuộc về tác giả gốc. Nếu bạn cho rằng bất kỳ nội dung nào vi phạm quyền của bên thứ ba, vui lòng liên hệ [email protected] để được gỡ bỏ. MEXC không đảm bảo về tính chính xác, đầy đủ hoặc kịp thời của các nội dung và không chịu trách nhiệm cho các hành động được thực hiện dựa trên thông tin cung cấp. Nội dung này không cấu thành lời khuyên tài chính, pháp lý hoặc chuyên môn khác, và cũng không được xem là khuyến nghị hoặc xác nhận từ MEXC.

$30,000 PRL + 15,000 USDT

$30,000 PRL + 15,000 USDT$30,000 PRL + 15,000 USDT

Nạp & giao dịch PRL để tăng phần thưởng!