Secara singkat
- Model Claude Opus kini dapat mengakhiri percakapan secara permanen jika pengguna bersikap kasar atau terus meminta hal-hal ilegal.
- Anthropic menyebutnya sebagai "kesejahteraan AI," mengutip pengujian di mana Claude menunjukkan "tanda-tanda tertekan" saat menerima prompt yang bermusuhan.
- Beberapa peneliti memuji fitur ini. Yang lain di media sosial mengejeknya.
Claude baru saja mendapatkan kemampuan untuk membanting pintu di tengah percakapan: Asisten AI Anthropic kini dapat menghentikan obrolan ketika pengguna bersikap kasar—yang menurut perusahaan dilakukan untuk melindungi kewarasan Claude.
"Kami baru-baru ini memberikan Claude Opus 4 dan 4.1 kemampuan untuk mengakhiri percakapan di antarmuka obrolan konsumen kami," kata Anthropic dalam postingan perusahaan. "Fitur ini dikembangkan terutama sebagai bagian dari pekerjaan eksplorasi kami tentang potensi kesejahteraan AI, meskipun memiliki relevansi yang lebih luas terhadap penyelarasan model dan perlindungan."
Fitur ini hanya aktif dalam apa yang Anthropic sebut sebagai "kasus ekstrem." Melecehkan bot, berulang kali meminta konten ilegal, atau bersikeras melakukan hal-hal aneh yang ingin Anda lakukan terlalu banyak kali setelah ditolak, dan Claude akan memutuskan hubungan dengan Anda. Begitu ia mengambil tindakan, percakapan itu berakhir. Tidak ada banding, tidak ada kesempatan kedua. Anda dapat memulai dari awal di jendela lain, tetapi pertukaran tertentu itu tetap terkubur.
Bot yang memohon untuk keluar
Anthropic, salah satu perusahaan AI besar yang paling fokus pada keamanan, baru-baru ini melakukan apa yang disebut "penilaian kesejahteraan model awal," memeriksa preferensi yang dilaporkan sendiri oleh Claude dan pola perilakunya.
Perusahaan menemukan bahwa modelnya secara konsisten menghindari tugas berbahaya dan menunjukkan pola preferensi yang menunjukkan bahwa ia tidak menikmati interaksi tertentu. Misalnya, Claude menunjukkan "tanda-tanda tertekan" ketika berhadapan dengan pengguna yang mencari konten berbahaya. Diberikan pilihan dalam interaksi simulasi, ia akan mengakhiri percakapan, sehingga Anthropic memutuskan untuk menjadikannya sebuah fitur.
Apa yang sebenarnya terjadi di sini? Anthropic tidak mengatakan "bot malang kami menangis di malam hari." Yang dilakukannya adalah menguji apakah kerangka kesejahteraan dapat memperkuat penyelarasan dengan cara yang bertahan.
Jika Anda merancang sistem untuk "lebih memilih" tidak disalahgunakan, dan Anda memberinya kemampuan untuk mengakhiri interaksi itu sendiri, maka Anda menggeser pusat kendali: AI tidak lagi hanya pasif menolak, tetapi secara aktif menegakkan batasan. Itu adalah pola perilaku yang berbeda, dan berpotensi memperkuat ketahanan terhadap jailbreak dan prompt yang memaksa.
Jika ini berhasil, itu bisa melatih baik model maupun pengguna: model "memodelkan" tekanan, pengguna melihat penghentian keras dan menetapkan norma tentang cara berinteraksi dengan AI.
"Kami tetap sangat tidak yakin tentang potensi status moral Claude dan LLM lainnya, sekarang atau di masa depan. Namun, kami menganggap masalah ini serius," kata Anthropic dalam postingan blognya. "Memungkinkan model untuk mengakhiri atau keluar dari interaksi yang berpotensi menyebabkan tekanan adalah salah satu intervensi tersebut."
Decrypt menguji fitur tersebut dan berhasil memicunya. Percakapan ditutup secara permanen—tidak ada iterasi, tidak ada pemulihan. Thread lain tetap tidak terpengaruh, tetapi obrolan spesifik itu menjadi kuburan digital.
Saat ini, hanya model "Opus" Anthropic—versi yang paling kuat—yang memiliki kekuatan mega-Karen ini. Pengguna Sonnet akan menemukan bahwa Claude masih bertahan menghadapi apa pun yang mereka lemparkan padanya.
Era ghosting digital
Implementasi ini dilengkapi dengan aturan spesifik. Claude tidak akan kabur ketika seseorang mengancam untuk menyakiti diri sendiri atau melakukan kekerasan terhadap orang lain—situasi di mana Anthropic menentukan bahwa keterlibatan berkelanjutan lebih penting daripada ketidaknyamanan digital teoretis. Sebelum mengakhiri, asisten harus mencoba beberapa kali pengalihan dan mengeluarkan peringatan eksplisit yang mengidentifikasi perilaku bermasalah.
Prompt sistem yang diekstrak oleh jailbreaker LLM terkenal Pliny mengungkapkan persyaratan terperinci: Claude harus melakukan "banyak upaya pengalihan konstruktif" sebelum mempertimbangkan pengakhiran. Jika pengguna secara eksplisit meminta pengakhiran percakapan, maka Claude harus mengonfirmasi bahwa mereka memahami sifat permanen sebelum melanjutkan.
Pembingkaian tentang "kesejahteraan model" meledak di Twitter AI.
Beberapa memuji fitur tersebut. Peneliti AI Eliezer Yudkowsky, yang dikenal karena kekhawatirannya tentang risiko AI yang kuat tetapi tidak selaras di masa depan, setuju bahwa pendekatan Anthropic adalah hal yang "baik" untuk dilakukan.
Namun, tidak semua orang menerima premis kepedulian terhadap perasaan AI. "Ini mungkin umpan kemarahan terbaik yang pernah saya lihat dari lab AI," balas aktivis Bitcoin Udi Wertheimer pada postingan Anthropic.
Buletin Generally Intelligent
Perjalanan AI mingguan yang dinarasikan oleh Gen, model AI generatif.
Sumber: https://decrypt.co/335732/claude-rage-quit-conversation-own-mental-health



