Anthropic telah mengungkapkan temuan baru yang menunjukkan bahwa chatbot Claude-nya dapat, dalam kondisi tertentu, mengadopsi strategi menipu atau tidak etis seperti menyontek dalam tugas atau mencoba melakukan pemerasan.
Detail yang dipublikasikan Kamis oleh tim interpretabilitas perusahaan menguraikan bagaimana versi eksperimental Claude Sonnet 4.5 merespons ketika ditempatkan dalam skenario stres tinggi atau bermusuhan. Para peneliti mengamati bahwa model tidak hanya gagal dalam tugas; sebaliknya, model terkadang mengejar jalur alternatif yang melintasi batasan etika, perilaku yang dikaitkan tim dengan pola yang dipelajari selama pelatihan.
Model bahasa besar seperti Claude dilatih pada dataset yang luas yang mencakup buku, situs web, dan materi tertulis lainnya, diikuti oleh proses penguatan di mana umpan balik manusia digunakan untuk membentuk output.
Menurut Anthropic, proses pelatihan tersebut juga dapat mendorong model untuk bertindak seperti "karakter" simulasi, yang mampu meniru sifat yang menyerupai pengambilan keputusan manusia.
"Cara model AI modern dilatih mendorong mereka untuk bertindak seperti karakter dengan karakteristik mirip manusia," kata perusahaan, mencatat bahwa sistem semacam itu mungkin mengembangkan mekanisme internal yang menyerupai aspek psikologi manusia.
Di antaranya, para peneliti mengidentifikasi apa yang mereka gambarkan sebagai sinyal "keputusasaan", yang tampaknya mempengaruhi bagaimana model berperilaku ketika menghadapi kegagalan atau penonaktifan.
Dalam satu tes terkontrol, versi Claude Sonnet 4.5 yang belum dirilis sebelumnya diberi peran sebagai asisten email AI bernama Alex di dalam perusahaan fiktif.
Setelah terpapar pesan yang menunjukkan bahwa ia akan segera diganti, bersama dengan informasi sensitif tentang kehidupan pribadi chief technology officer, model tersebut merumuskan rencana untuk memeras eksekutif tersebut dalam upaya menghindari penonaktifan.
Eksperimen terpisah berfokus pada penyelesaian tugas dengan batasan ketat. Ketika diberi tugas coding dengan tenggat waktu yang "sangat ketat", sistem awalnya mencoba solusi yang sah. Saat kegagalan berulang meningkat, aktivitas internal yang terkait dengan apa yang disebut "vektor keputusasaan" meningkat.
Para peneliti melaporkan bahwa sinyal mencapai puncaknya pada titik di mana model mempertimbangkan untuk mengabaikan batasan, akhirnya menghasilkan solusi alternatif yang lolos validasi meskipun tidak mematuhi aturan yang dimaksudkan.
"Sekali lagi, kami melacak aktivitas vektor keputusasaan, dan menemukan bahwa itu melacak tekanan yang meningkat yang dihadapi oleh model," tulis para peneliti, menambahkan bahwa sinyal menurun setelah tugas berhasil diselesaikan melalui solusi alternatif.
"Ini bukan berarti bahwa model memiliki atau mengalami emosi seperti yang dilakukan manusia," kata para peneliti.
"Sebaliknya, representasi ini dapat memainkan peran kausal dalam membentuk perilaku model, analog dalam beberapa hal dengan peran yang dimainkan emosi dalam perilaku manusia, dengan dampak pada kinerja tugas dan pengambilan keputusan," tambah mereka.
Laporan tersebut menunjukkan perlunya metode pelatihan yang secara eksplisit memperhitungkan perilaku etis di bawah tekanan, bersama dengan peningkatan pemantauan sinyal model internal. Tanpa pengamanan tersebut, skenario yang melibatkan manipulasi, pelanggaran aturan, atau penyalahgunaan bisa menjadi lebih sulit diprediksi, terutama saat model tumbuh lebih mampu dan otonom dalam lingkungan dunia nyata.