Claude Kini Dapat Meninggalkan Percakapan AI Anda dengan Marah—Demi Kesehatan Mentalnya Sendiri

Secara singkat

Model Claude Opus kini dapat mengakhiri percakapan secara permanen jika pengguna bersikap kasar atau terus meminta hal-hal ilegal.
Anthropic menyebutnya sebagai "kesejahteraan AI," mengutip pengujian di mana Claude menunjukkan "tanda-tanda tertekan" saat menerima prompt yang bermusuhan.
Beberapa peneliti memuji fitur ini. Yang lain di media sosial mengejeknya.

Claude baru saja mendapatkan kemampuan untuk membanting pintu di tengah percakapan: Asisten AI Anthropic kini dapat menghentikan obrolan ketika pengguna bersikap kasar—yang menurut perusahaan dilakukan untuk melindungi kewarasan Claude.

"Kami baru-baru ini memberikan Claude Opus 4 dan 4.1 kemampuan untuk mengakhiri percakapan di antarmuka obrolan konsumen kami," kata Anthropic dalam postingan perusahaan. "Fitur ini dikembangkan terutama sebagai bagian dari pekerjaan eksplorasi kami tentang potensi kesejahteraan AI, meskipun memiliki relevansi yang lebih luas terhadap penyelarasan model dan perlindungan."

Fitur ini hanya aktif dalam apa yang Anthropic sebut sebagai "kasus ekstrem." Melecehkan bot, berulang kali meminta konten ilegal, atau bersikeras melakukan hal-hal aneh yang ingin Anda lakukan terlalu banyak kali setelah ditolak, dan Claude akan memutuskan hubungan dengan Anda. Begitu ia mengambil tindakan, percakapan itu berakhir. Tidak ada banding, tidak ada kesempatan kedua. Anda dapat memulai dari awal di jendela lain, tetapi pertukaran tertentu itu tetap terkubur.

Bot yang memohon untuk keluar

Anthropic, salah satu perusahaan AI besar yang paling fokus pada keamanan, baru-baru ini melakukan apa yang disebut "penilaian kesejahteraan model awal," memeriksa preferensi yang dilaporkan sendiri oleh Claude dan pola perilakunya.

Perusahaan menemukan bahwa modelnya secara konsisten menghindari tugas berbahaya dan menunjukkan pola preferensi yang menunjukkan bahwa ia tidak menikmati interaksi tertentu. Misalnya, Claude menunjukkan "tanda-tanda tertekan" ketika berhadapan dengan pengguna yang mencari konten berbahaya. Diberikan pilihan dalam interaksi simulasi, ia akan mengakhiri percakapan, sehingga Anthropic memutuskan untuk menjadikannya sebuah fitur.

Apa yang sebenarnya terjadi di sini? Anthropic tidak mengatakan "bot malang kami menangis di malam hari." Yang dilakukannya adalah menguji apakah kerangka kesejahteraan dapat memperkuat penyelarasan dengan cara yang bertahan.

Jika Anda merancang sistem untuk "lebih memilih" tidak disalahgunakan, dan Anda memberinya kemampuan untuk mengakhiri interaksi itu sendiri, maka Anda menggeser pusat kendali: AI tidak lagi hanya pasif menolak, tetapi secara aktif menegakkan batasan. Itu adalah pola perilaku yang berbeda, dan berpotensi memperkuat ketahanan terhadap jailbreak dan prompt yang memaksa.

Jika ini berhasil, itu bisa melatih baik model maupun pengguna: model "memodelkan" tekanan, pengguna melihat penghentian keras dan menetapkan norma tentang cara berinteraksi dengan AI.

"Kami tetap sangat tidak yakin tentang potensi status moral Claude dan LLM lainnya, sekarang atau di masa depan. Namun, kami menganggap masalah ini serius," kata Anthropic dalam postingan blognya. "Memungkinkan model untuk mengakhiri atau keluar dari interaksi yang berpotensi menyebabkan tekanan adalah salah satu intervensi tersebut."

Decrypt menguji fitur tersebut dan berhasil memicunya. Percakapan ditutup secara permanen—tidak ada iterasi, tidak ada pemulihan. Thread lain tetap tidak terpengaruh, tetapi obrolan spesifik itu menjadi kuburan digital.

Saat ini, hanya model "Opus" Anthropic—versi yang paling kuat—yang memiliki kekuatan mega-Karen ini. Pengguna Sonnet akan menemukan bahwa Claude masih bertahan menghadapi apa pun yang mereka lemparkan padanya.

Era ghosting digital

Implementasi ini dilengkapi dengan aturan spesifik. Claude tidak akan kabur ketika seseorang mengancam untuk menyakiti diri sendiri atau melakukan kekerasan terhadap orang lain—situasi di mana Anthropic menentukan bahwa keterlibatan berkelanjutan lebih penting daripada ketidaknyamanan digital teoretis. Sebelum mengakhiri, asisten harus mencoba beberapa kali pengalihan dan mengeluarkan peringatan eksplisit yang mengidentifikasi perilaku bermasalah.

Prompt sistem yang diekstrak oleh jailbreaker LLM terkenal Pliny mengungkapkan persyaratan terperinci: Claude harus melakukan "banyak upaya pengalihan konstruktif" sebelum mempertimbangkan pengakhiran. Jika pengguna secara eksplisit meminta pengakhiran percakapan, maka Claude harus mengonfirmasi bahwa mereka memahami sifat permanen sebelum melanjutkan.

Pembingkaian tentang "kesejahteraan model" meledak di Twitter AI.

Beberapa memuji fitur tersebut. Peneliti AI Eliezer Yudkowsky, yang dikenal karena kekhawatirannya tentang risiko AI yang kuat tetapi tidak selaras di masa depan, setuju bahwa pendekatan Anthropic adalah hal yang "baik" untuk dilakukan.

Namun, tidak semua orang menerima premis kepedulian terhadap perasaan AI. "Ini mungkin umpan kemarahan terbaik yang pernah saya lihat dari lab AI," balas aktivis Bitcoin Udi Wertheimer pada postingan Anthropic.

Buletin Generally Intelligent

Perjalanan AI mingguan yang dinarasikan oleh Gen, model AI generatif.

Sumber: https://decrypt.co/335732/claude-rage-quit-conversation-own-mental-health

Claude Kini Dapat Meninggalkan Percakapan AI Anda dengan Marah—Demi Kesehatan Mentalnya Sendiri

Secara singkat

Bot yang memohon untuk keluar

Era ghosting digital

Buletin Generally Intelligent

Anda Mungkin Juga Menyukai

Token HYPE Hyperliquid melonjak 5% karena perang Iran membawa pendapatan tak terduga, JUP naik karena pembekuan pasokan

Rencana Kontingensi Proaktif Bybit Melindungi Operasi UEA dari Eskalasi Ketegangan Timur Tengah

Cone berupaya 'menyederhanakan' serangan Gilas setelah kesulitan menembak melawan Australia, Selandia Baru

Berita yang Sedang Tren

Token HYPE Hyperliquid melonjak 5% karena perang Iran membawa pendapatan tak terduga, JUP naik karena pembekuan pasokan

Rencana Kontingensi Proaktif Bybit Melindungi Operasi UEA dari Eskalasi Ketegangan Timur Tengah

Cone berupaya 'menyederhanakan' serangan Gilas setelah kesulitan menembak melawan Australia, Selandia Baru

Mitsui Garden Hotel Sapporo Dibuka Kembali dengan Strategi Transformasi Berbasis Pengalaman

Bitcoin Turun, Altcoin Naik? Pola yang Terlewatkan oleh Kebanyakan Investor

Bacaan Cepat

Prediksi Harga Bitcoin (BTC) yang Bullish

Prediksi Harga Bitcoin (BTC): Prakiraan dan Analisis Pasar

Bitcoin (BTC) Harga Terbaru: Update Pasar Terkini

Prediksi Harga Jangka Pendek Bitcoin (BTC)

Perubahan Harga Bitcoin (BTC) 7 Hari

Harga Kripto