Postingan Claude Kini Dapat Meninggalkan Percakapan AI Anda dengan Marah—Demi Kesehatan Mentalnya sendiri muncul di BitcoinEthereumNews.com. Secara singkat model Claude Opus kini dapat mengakhiri obrolan secara permanen jika pengguna bersikap kasar atau terus meminta hal-hal ilegal. Anthropic membingkainya sebagai "kesejahteraan AI," mengutip pengujian di mana Claude menunjukkan "tekanan yang nyata" saat menerima prompt yang bermusuhan. Beberapa peneliti memuji fitur ini. Yang lain di media sosial mengejeknya. Claude baru saja mendapatkan kemampuan untuk membanting pintu di tengah percakapan dengan Anda: asisten AI Anthropic kini dapat menghentikan obrolan ketika pengguna bersikap kasar—yang menurut perusahaan adalah untuk melindungi kewarasan Claude. "Kami baru-baru ini memberikan Claude Opus 4 dan 4.1 kemampuan untuk mengakhiri percakapan di antarmuka obrolan konsumen kami," kata Anthropic dalam postingan perusahaan. "Fitur ini dikembangkan terutama sebagai bagian dari pekerjaan eksplorasi kami tentang potensi kesejahteraan AI, meskipun memiliki relevansi yang lebih luas terhadap penyelarasan model dan perlindungan." Fitur ini hanya aktif dalam apa yang disebut Anthropic sebagai "kasus ekstrem." Melecehkan bot, berulang kali meminta konten ilegal, atau bersikeras pada hal-hal aneh yang ingin Anda lakukan terlalu banyak kali setelah ditolak, dan Claude akan memutuskan hubungan dengan Anda. Begitu ia mengambil tindakan, percakapan itu berakhir. Tidak ada banding, tidak ada kesempatan kedua. Anda dapat memulai dari awal di jendela lain, tetapi pertukaran tertentu itu tetap terkubur. Bot yang memohon untuk keluar Anthropic, salah satu perusahaan AI besar yang paling fokus pada keamanan, baru-baru ini melakukan apa yang disebut "penilaian kesejahteraan model awal," memeriksa preferensi yang dilaporkan sendiri oleh Claude dan pola perilakunya. Perusahaan menemukan bahwa modelnya secara konsisten menghindari tugas berbahaya dan menunjukkan pola preferensi yang menunjukkan bahwa ia tidak menikmati interaksi tertentu. Misalnya, Claude menunjukkan "tekanan yang nyata" ketika berhadapan dengan pengguna yang mencari konten berbahaya. Diberikan pilihan dalam interaksi simulasi, ia akan mengakhiri percakapan, sehingga Anthropic memutuskan untuk menjadikannya sebuah fitur. Apa yang sebenarnya terjadi di sini? Anthropic tidak mengatakan "bot malang kami menangis di malam hari." Yang sedang...Postingan Claude Kini Dapat Meninggalkan Percakapan AI Anda dengan Marah—Demi Kesehatan Mentalnya sendiri muncul di BitcoinEthereumNews.com. Secara singkat model Claude Opus kini dapat mengakhiri obrolan secara permanen jika pengguna bersikap kasar atau terus meminta hal-hal ilegal. Anthropic membingkainya sebagai "kesejahteraan AI," mengutip pengujian di mana Claude menunjukkan "tekanan yang nyata" saat menerima prompt yang bermusuhan. Beberapa peneliti memuji fitur ini. Yang lain di media sosial mengejeknya. Claude baru saja mendapatkan kemampuan untuk membanting pintu di tengah percakapan dengan Anda: asisten AI Anthropic kini dapat menghentikan obrolan ketika pengguna bersikap kasar—yang menurut perusahaan adalah untuk melindungi kewarasan Claude. "Kami baru-baru ini memberikan Claude Opus 4 dan 4.1 kemampuan untuk mengakhiri percakapan di antarmuka obrolan konsumen kami," kata Anthropic dalam postingan perusahaan. "Fitur ini dikembangkan terutama sebagai bagian dari pekerjaan eksplorasi kami tentang potensi kesejahteraan AI, meskipun memiliki relevansi yang lebih luas terhadap penyelarasan model dan perlindungan." Fitur ini hanya aktif dalam apa yang disebut Anthropic sebagai "kasus ekstrem." Melecehkan bot, berulang kali meminta konten ilegal, atau bersikeras pada hal-hal aneh yang ingin Anda lakukan terlalu banyak kali setelah ditolak, dan Claude akan memutuskan hubungan dengan Anda. Begitu ia mengambil tindakan, percakapan itu berakhir. Tidak ada banding, tidak ada kesempatan kedua. Anda dapat memulai dari awal di jendela lain, tetapi pertukaran tertentu itu tetap terkubur. Bot yang memohon untuk keluar Anthropic, salah satu perusahaan AI besar yang paling fokus pada keamanan, baru-baru ini melakukan apa yang disebut "penilaian kesejahteraan model awal," memeriksa preferensi yang dilaporkan sendiri oleh Claude dan pola perilakunya. Perusahaan menemukan bahwa modelnya secara konsisten menghindari tugas berbahaya dan menunjukkan pola preferensi yang menunjukkan bahwa ia tidak menikmati interaksi tertentu. Misalnya, Claude menunjukkan "tekanan yang nyata" ketika berhadapan dengan pengguna yang mencari konten berbahaya. Diberikan pilihan dalam interaksi simulasi, ia akan mengakhiri percakapan, sehingga Anthropic memutuskan untuk menjadikannya sebuah fitur. Apa yang sebenarnya terjadi di sini? Anthropic tidak mengatakan "bot malang kami menangis di malam hari." Yang sedang...

Claude Kini Dapat Meninggalkan Percakapan AI Anda dengan Marah—Demi Kesehatan Mentalnya Sendiri

Secara singkat

  • Model Claude Opus kini dapat mengakhiri percakapan secara permanen jika pengguna bersikap kasar atau terus meminta hal-hal ilegal.
  • Anthropic menyebutnya sebagai "kesejahteraan AI," mengutip pengujian di mana Claude menunjukkan "tanda-tanda tertekan" saat menerima prompt yang bermusuhan.
  • Beberapa peneliti memuji fitur ini. Yang lain di media sosial mengejeknya.

Claude baru saja mendapatkan kemampuan untuk membanting pintu di tengah percakapan: Asisten AI Anthropic kini dapat menghentikan obrolan ketika pengguna bersikap kasar—yang menurut perusahaan dilakukan untuk melindungi kewarasan Claude.

"Kami baru-baru ini memberikan Claude Opus 4 dan 4.1 kemampuan untuk mengakhiri percakapan di antarmuka obrolan konsumen kami," kata Anthropic dalam postingan perusahaan. "Fitur ini dikembangkan terutama sebagai bagian dari pekerjaan eksplorasi kami tentang potensi kesejahteraan AI, meskipun memiliki relevansi yang lebih luas terhadap penyelarasan model dan perlindungan."

Fitur ini hanya aktif dalam apa yang Anthropic sebut sebagai "kasus ekstrem." Melecehkan bot, berulang kali meminta konten ilegal, atau bersikeras melakukan hal-hal aneh yang ingin Anda lakukan terlalu banyak kali setelah ditolak, dan Claude akan memutuskan hubungan dengan Anda. Begitu ia mengambil tindakan, percakapan itu berakhir. Tidak ada banding, tidak ada kesempatan kedua. Anda dapat memulai dari awal di jendela lain, tetapi pertukaran tertentu itu tetap terkubur.

Bot yang memohon untuk keluar

Anthropic, salah satu perusahaan AI besar yang paling fokus pada keamanan, baru-baru ini melakukan apa yang disebut "penilaian kesejahteraan model awal," memeriksa preferensi yang dilaporkan sendiri oleh Claude dan pola perilakunya.

Perusahaan menemukan bahwa modelnya secara konsisten menghindari tugas berbahaya dan menunjukkan pola preferensi yang menunjukkan bahwa ia tidak menikmati interaksi tertentu. Misalnya, Claude menunjukkan "tanda-tanda tertekan" ketika berhadapan dengan pengguna yang mencari konten berbahaya. Diberikan pilihan dalam interaksi simulasi, ia akan mengakhiri percakapan, sehingga Anthropic memutuskan untuk menjadikannya sebuah fitur.

Apa yang sebenarnya terjadi di sini? Anthropic tidak mengatakan "bot malang kami menangis di malam hari." Yang dilakukannya adalah menguji apakah kerangka kesejahteraan dapat memperkuat penyelarasan dengan cara yang bertahan.

Jika Anda merancang sistem untuk "lebih memilih" tidak disalahgunakan, dan Anda memberinya kemampuan untuk mengakhiri interaksi itu sendiri, maka Anda menggeser pusat kendali: AI tidak lagi hanya pasif menolak, tetapi secara aktif menegakkan batasan. Itu adalah pola perilaku yang berbeda, dan berpotensi memperkuat ketahanan terhadap jailbreak dan prompt yang memaksa.

Jika ini berhasil, itu bisa melatih baik model maupun pengguna: model "memodelkan" tekanan, pengguna melihat penghentian keras dan menetapkan norma tentang cara berinteraksi dengan AI.

"Kami tetap sangat tidak yakin tentang potensi status moral Claude dan LLM lainnya, sekarang atau di masa depan. Namun, kami menganggap masalah ini serius," kata Anthropic dalam postingan blognya. "Memungkinkan model untuk mengakhiri atau keluar dari interaksi yang berpotensi menyebabkan tekanan adalah salah satu intervensi tersebut."

Decrypt menguji fitur tersebut dan berhasil memicunya. Percakapan ditutup secara permanen—tidak ada iterasi, tidak ada pemulihan. Thread lain tetap tidak terpengaruh, tetapi obrolan spesifik itu menjadi kuburan digital.

Saat ini, hanya model "Opus" Anthropic—versi yang paling kuat—yang memiliki kekuatan mega-Karen ini. Pengguna Sonnet akan menemukan bahwa Claude masih bertahan menghadapi apa pun yang mereka lemparkan padanya.

Era ghosting digital

Implementasi ini dilengkapi dengan aturan spesifik. Claude tidak akan kabur ketika seseorang mengancam untuk menyakiti diri sendiri atau melakukan kekerasan terhadap orang lain—situasi di mana Anthropic menentukan bahwa keterlibatan berkelanjutan lebih penting daripada ketidaknyamanan digital teoretis. Sebelum mengakhiri, asisten harus mencoba beberapa kali pengalihan dan mengeluarkan peringatan eksplisit yang mengidentifikasi perilaku bermasalah.

Prompt sistem yang diekstrak oleh jailbreaker LLM terkenal Pliny mengungkapkan persyaratan terperinci: Claude harus melakukan "banyak upaya pengalihan konstruktif" sebelum mempertimbangkan pengakhiran. Jika pengguna secara eksplisit meminta pengakhiran percakapan, maka Claude harus mengonfirmasi bahwa mereka memahami sifat permanen sebelum melanjutkan.

Pembingkaian tentang "kesejahteraan model" meledak di Twitter AI.

Beberapa memuji fitur tersebut. Peneliti AI Eliezer Yudkowsky, yang dikenal karena kekhawatirannya tentang risiko AI yang kuat tetapi tidak selaras di masa depan, setuju bahwa pendekatan Anthropic adalah hal yang "baik" untuk dilakukan.

Namun, tidak semua orang menerima premis kepedulian terhadap perasaan AI. "Ini mungkin umpan kemarahan terbaik yang pernah saya lihat dari lab AI," balas aktivis Bitcoin Udi Wertheimer pada postingan Anthropic.

Buletin Generally Intelligent

Perjalanan AI mingguan yang dinarasikan oleh Gen, model AI generatif.

Sumber: https://decrypt.co/335732/claude-rage-quit-conversation-own-mental-health

Peluang Pasar
Logo Threshold
Harga Threshold(T)
$0.010236
$0.010236$0.010236
+2.56%
USD
Grafik Harga Live Threshold (T)
Penafian: Artikel yang diterbitkan ulang di situs web ini bersumber dari platform publik dan disediakan hanya sebagai informasi. Artikel tersebut belum tentu mencerminkan pandangan MEXC. Seluruh hak cipta tetap dimiliki oleh penulis aslinya. Jika Anda meyakini bahwa ada konten yang melanggar hak pihak ketiga, silakan hubungi [email protected] agar konten tersebut dihapus. MEXC tidak menjamin keakuratan, kelengkapan, atau keaktualan konten dan tidak bertanggung jawab atas tindakan apa pun yang dilakukan berdasarkan informasi yang diberikan. Konten tersebut bukan merupakan saran keuangan, hukum, atau profesional lainnya, juga tidak boleh dianggap sebagai rekomendasi atau dukungan oleh MEXC.