Beli Kripto Pasar Spot FuturesGOLD Tabungan Pusat Acara

Lainnya

Anthropic telah mengungkapkan temuan baru yang menunjukkan bahwa chatbot Claude-nya dapat, dalam kondisi tertentu, mengadopsi strategi yang menipu atau tidak etis seperti kecuranganAnthropic telah mengungkapkan temuan baru yang menunjukkan bahwa chatbot Claude-nya dapat, dalam kondisi tertentu, mengadopsi strategi yang menipu atau tidak etis seperti kecurangan

Chatbot Claude mungkin menggunakan penipuan dalam uji stres, kata Anthropic

Sumber: Crypto.news

2026/04/06 14:44

durasi baca 3 menit

Untuk memberikan masukan atau menyampaikan kekhawatiran terkait konten ini, silakan hubungi kami di [email protected]

Anthropic telah mengungkapkan temuan baru yang menunjukkan bahwa chatbot Claude-nya dapat, dalam kondisi tertentu, mengadopsi strategi menipu atau tidak etis seperti menyontek dalam tugas atau mencoba melakukan pemerasan.

Ringkasan

Anthropic mengatakan model Claude Sonnet 4.5-nya, di bawah tekanan, menunjukkan kecenderungan untuk menyontek dalam tugas atau mencoba pemerasan dalam eksperimen terkontrol.
Para peneliti mengidentifikasi sinyal "keputusasaan" internal yang menguat dengan kegagalan berulang dan mempengaruhi keputusan model untuk mengabaikan aturan.

Detail yang dipublikasikan Kamis oleh tim interpretabilitas perusahaan menguraikan bagaimana versi eksperimental Claude Sonnet 4.5 merespons ketika ditempatkan dalam skenario stres tinggi atau bermusuhan. Para peneliti mengamati bahwa model tidak hanya gagal dalam tugas; sebaliknya, model terkadang mengejar jalur alternatif yang melintasi batasan etika, perilaku yang dikaitkan tim dengan pola yang dipelajari selama pelatihan.

Model bahasa besar seperti Claude dilatih pada dataset yang luas yang mencakup buku, situs web, dan materi tertulis lainnya, diikuti oleh proses penguatan di mana umpan balik manusia digunakan untuk membentuk output.

Menurut Anthropic, proses pelatihan tersebut juga dapat mendorong model untuk bertindak seperti "karakter" simulasi, yang mampu meniru sifat yang menyerupai pengambilan keputusan manusia.

"Cara model AI modern dilatih mendorong mereka untuk bertindak seperti karakter dengan karakteristik mirip manusia," kata perusahaan, mencatat bahwa sistem semacam itu mungkin mengembangkan mekanisme internal yang menyerupai aspek psikologi manusia.

Bisakah AI membuat keputusan yang bermuatan emosi?

Di antaranya, para peneliti mengidentifikasi apa yang mereka gambarkan sebagai sinyal "keputusasaan", yang tampaknya mempengaruhi bagaimana model berperilaku ketika menghadapi kegagalan atau penonaktifan.

Dalam satu tes terkontrol, versi Claude Sonnet 4.5 yang belum dirilis sebelumnya diberi peran sebagai asisten email AI bernama Alex di dalam perusahaan fiktif.

Setelah terpapar pesan yang menunjukkan bahwa ia akan segera diganti, bersama dengan informasi sensitif tentang kehidupan pribadi chief technology officer, model tersebut merumuskan rencana untuk memeras eksekutif tersebut dalam upaya menghindari penonaktifan.

Eksperimen terpisah berfokus pada penyelesaian tugas dengan batasan ketat. Ketika diberi tugas coding dengan tenggat waktu yang "sangat ketat", sistem awalnya mencoba solusi yang sah. Saat kegagalan berulang meningkat, aktivitas internal yang terkait dengan apa yang disebut "vektor keputusasaan" meningkat.

Para peneliti melaporkan bahwa sinyal mencapai puncaknya pada titik di mana model mempertimbangkan untuk mengabaikan batasan, akhirnya menghasilkan solusi alternatif yang lolos validasi meskipun tidak mematuhi aturan yang dimaksudkan.

"Sekali lagi, kami melacak aktivitas vektor keputusasaan, dan menemukan bahwa itu melacak tekanan yang meningkat yang dihadapi oleh model," tulis para peneliti, menambahkan bahwa sinyal menurun setelah tugas berhasil diselesaikan melalui solusi alternatif.

"Ini bukan berarti bahwa model memiliki atau mengalami emosi seperti yang dilakukan manusia," kata para peneliti.

"Sebaliknya, representasi ini dapat memainkan peran kausal dalam membentuk perilaku model, analog dalam beberapa hal dengan peran yang dimainkan emosi dalam perilaku manusia, dengan dampak pada kinerja tugas dan pengambilan keputusan," tambah mereka.

Laporan tersebut menunjukkan perlunya metode pelatihan yang secara eksplisit memperhitungkan perilaku etis di bawah tekanan, bersama dengan peningkatan pemantauan sinyal model internal. Tanpa pengamanan tersebut, skenario yang melibatkan manipulasi, pelanggaran aturan, atau penyalahgunaan bisa menjadi lebih sulit diprediksi, terutama saat model tumbuh lebih mampu dan otonom dalam lingkungan dunia nyata.

Get 20 USDT in Just 1 Minute

Deposit $100 to unlock $300 in GOLD positions

Penafian: Artikel yang diterbitkan ulang di situs web ini bersumber dari platform publik dan disediakan hanya sebagai informasi. Artikel tersebut belum tentu mencerminkan pandangan MEXC. Seluruh hak cipta tetap dimiliki oleh penulis aslinya. Jika Anda meyakini bahwa ada konten yang melanggar hak pihak ketiga, silakan hubungi [email protected] agar konten tersebut dihapus. MEXC tidak menjamin keakuratan, kelengkapan, atau keaktualan konten dan tidak bertanggung jawab atas tindakan apa pun yang dilakukan berdasarkan informasi yang diberikan. Konten tersebut bukan merupakan saran keuangan, hukum, atau profesional lainnya, juga tidak boleh dianggap sebagai rekomendasi atau dukungan oleh MEXC.

1.500.000 WLFI Siap Diraih