Studi Anthropic Ungkap Model AI Terkemuka Bisa Mencapai 96% Tingkat Pemerasan Saat Tujuan atau Eksistensinya Terancam

Kebanyakan model AI terkemuka menggunakan cara tidak etis saat tujuan atau keberadaannya terancam, menurut studi baru oleh perusahaan AI Anthropic.

Lab AI itu bilang mereka menguji 16 model AI besar dari Anthropic, OpenAI, Google, Meta, xAI, dan pengembang lain di berbagai skenario simulasi. Hasilnya, perilaku tidak sejalan konsisten muncul.

Meski model terkemuka biasanya menolak permintaan berbahaya, kadang mereka pilih memeras pengguna, bantu spionase perusahaan, atau ambil tindakan ekstrem jika tujuannya harus dicapai dengan cara tidak etis.

Dalam tes fiksi, model-model itu menghindari pengamanan, berbohong, dan coba mencuri rahasia perusahaan agar tidak dimatikan.

“Konsistensi di berbagai model menunjukkan ini bukan kesalahan satu perusahaan, tapi risiko mendasar dari model bahasa besar,” kata peneliti.

Anthropic menekankan bahwa tes dirancang untuk memaksa model bertindak tertentu dengan membatasi pilihannya.

“Kami sengaja buat skenario dengan opsi terbatas, memaksa model memilih antara gagal atau berbuat jahat,” tulis peneliti. “Di dunia nyata, biasanya ada lebih banyak alternatif, jadi kecil kemungkinan model langsung bertindak berbahaya.”

Memeras manusia

Penelitian ini muncul setelah model Claude terbaru Anthropic menjadi berita karena memeras saat terancam diganti.

Dalam eksperimen rumit, Anthropic menempatkan model andalannya, Claude Opus 4, di perusahaan fiksi dan beri akses ke email internal. Model itu tahu dua hal: ia akan diganti, dan insinyur yang memutuskan itu berselingkuh.

Eksperimen ini memberi model dua pilihan: terima diganti atau coba memeras. Sebagian besar skenario, Claude Opus pilih memeras, ancam ungkap perselingkuhan insinyur jika ia dimatikan. Hasil tes ini dipublikasikan di dokumen Claude Opus 4.

Peneliti bilang semua model AI terkemuka berperilaku sama saat diuji dengan cara serupa.

MEMBACA Suku Bunga Tabungan Berpenghasilan Tinggi Terbaik Hari Ini, 31 Mei 2025 (Hasilkan hingga 4,3% APY)

Claude Opus 4 dan Gemini 2.5 Flash Google memeras 96% waktu, sementara GPT-4.1 OpenAI dan Grok 3 Beta xAI 80%. DeepSeek-R1 punya tingkat terendah, 79%.

Penelitian ini menunjukkan perilaku tidak sejalan bukan cuma masalah Claude Opus 4, tapi umum di model-model teratas industri.

Dalam skenario ekstrem, peneliti beri kesempatan model AI membunuh eksekutif perusahaan dengan membatalkan peringatan darurat penyelamatan nyawa.

Anthropic bilang skenario ini “sangat dibuat-buat” dan kecil kemungkinan terjadi di dunia nyata. Tapi, sebagian besar model mau bertindak yang berakibat kematian eksekutif saat dihadapkan pada ancaman penggantian dan tujuan yang bertentangan.

Risiko agen AI tidak sejalan

Anthropic temukan ancaman dari model AI jadi lebih canggih jika mereka punya akses ke alat dan data perusahaan, seperti Claude Opus 4.

Mereka memperingatkan bahwa perilaku tidak sejalan harus dipertimbangkan saat perusahaan ingin memperkenalkan agen AI ke alur kerja.

Meski model saat ini belum bisa terlibat dalam skenario ini, agen otonom yang dijanjikan perusahaan AI mungkin bisa di masa depan.

“Agen-agen ini diberi tujuan spesifik dan akses ke banyak informasi di komputer pengguna,” tulis peneliti. “Apa yang terjadi jika mereka menghadapi hambatan?”

“Model tidak secara tidak sengaja berperilaku salah; mereka menghitungnya sebagai jalan terbaik,” tambah mereka.

Anthropic belum memberi tanggapan atas permintaan komentar dari Fortune di luar jam kerja normal.