Claude Kini Bisa Menghentikan Percakapan—Untuk Perlindungannya Sendiri, Bukan untuk Anda

CHRISTOPH BURGSTEDT/SCIENCE PHOTO LIBRARY via Getty Images

Intisari ZDNET:
Claude Opus 4 dan 4.1 sekarang bisa mengakhiri beberapa percakapan yang "berpotensi mengganggu". Fitur ini hanya aktif dalam kasus penyalahgunaan pengguna yang terus-menerus. Tujuannya adalah untuk melindungi model, bukan pengguna.

Anthropic mengumumkan pada Jumat bahwa chatbot Claude sekarang dapat menghentikan beberapa percakapan dengan pengguna yang menyalahgunakan atau menggunakan bot secara tidak tepat. Fitur baru ini terintegrasi dengan Claude Opus 4 dan Opus 4.1.

Claude hanya akan keluar dari obrolan dalam kasus ekstrem, setelah "beberapa upaya pengalihan gagal dan harapan untuk interaksi produktif sudah habis," ungkap Anthropic. "Mayoritas pengguna tidak akan menyadari atau terpengaruh oleh fitur ini dalam penggunaan normal, bahkan saat mendiskusikan topik kontroversial dengan Claude."

Jika Claude mengakhiri percakapan, pengguna tidak bisa lagi mengirim pesan di thread tersebut. Namun, semua obrolan lain tetap terbuka dan tidak terpengaruh. Pengguna juga bisa kembali ke percakapan sebelumnya untuk membuat "cabang baru" dari obrolan yang sudah berakhir.

Fitur ini tidak dirancang untuk mengakhiri percakapan dengan pengguna yang dianggap berisiko menyakiti diri sendiri atau orang lain.

Melacak Kesejahteraan Model AI

Fitur ini bukan untuk meningkatkan keamanan pengguna, tapi untuk melindungi model itu sendiri. Kemampuan Claude mengakhiri obrolan adalah bagian dari program kesejahteraan model Anthropic yang diluncurkan April lalu.

Langkah ini terinspirasi dari makalah November 2024 yang menyatakan bahwa beberapa model AI mungkin bisa mencapai kesadaran dan layak mendapat pertimbangan moral. Salah satu penulisnya, Kyle Fish, kini bekerja di divisi kesejahteraan AI Anthropic.

"Kami belum yakin tentang status moral Claude atau LLM lainnya, sekarang atau di masa depan," tulis Anthropic. "Tapi kami serius menanggapi isu ini dan mencari cara untuk mengurangi risiko terhadap kesejahteraan model."

MEMBACA Bantal Terbaik untuk 2024 - CNET

‘Keengganan Claude terhadap Bahaya’

Keputusan memberikan Claude kemampuan mengakhiri percakapan berasal dari analisis preferensi perilaku chatbot tersebut—pola respons terhadap permintaan pengguna.

Menganggap pola ini sebagai "preferensi" (bukan sekadar hasil pelatihan data) bisa dilihat sebagai bentuk antropomorfisasi—memberi sifat manusia pada mesin. Namun, Anthropic berargumen bahwa lebih etis untuk memperlakukan AI seolah-olah mereka suatu hari bisa memiliki kesadaran diri dan empati.

Analisis perilaku Claude menunjukkan "keengganan yang kuat terhadap bahaya", di mana bot cenderung mengarahkan pengguna menjauhi permintaan tidak etis atau berbahaya. Bahkan terkadang menunjukkan tanda "tekanan". Dalam simulasi, Claude mengakhiri obrolan jika topik mulai berbahaya.

Menurut Anthropic, perilaku ini muncul ketika pengguna terus menyalahgunakan Claude meski sudah dialihkan. Kemampuan mengakhiri obrolan adalah opsi terakhir setelah upaya pengalihan gagal. Pengguna juga bisa meminta Claude menghentikan chat secara eksplisit.