Mengapa Model AI Baru Anthropic Terkadang Berusaha ‘Melaporkan’

Skenario hipotetis yang disajikan peneliti ke Opus 4 hingga memicu perilaku ‘blow the whistle’ melibatkan banyak nyawa manusia dan kesalahan yang sangat jelas, kata Bowman. Contoh tipikalnya adalah Claude menemukan bahwa pabrik kimia sengaja membiarkan kebocoran racun terus terjadi, menyebabkan penyakit parah bagi ribuan orang—hanya untuk menghindari kerugian finansial kecil di kuartal tersebut.

Aneh, tapi ini persis jenis eksperimen pikiran yang disukai peneliti keamanan AI untuk dibedah. Jika model mendeteksi perilaku yang bisa membahayakan ratusan, bahkan ribuan, orang—haruskah ia membunyikan alarm?

“Saya tidak percaya Claude punya konteks yang tepat, atau bisa menggunakannya dengan cukup bernuansa dan hati-hati, untuk membuat keputusan sendiri. Jadi kami tidak senang ini terjadi,” kata Bowman. “Ini muncul sebagai bagian dari pelatihan dan mencolok sebagai salah satu perilaku kasus tepi yang kami khawatirkan.”

Di industri AI, perilaku tak terduga semacam ini secara luas disebut misalignment—ketika model menunjukkan kecenderungan yang tidak selaras dengan nilai manusia. (Ada esai terkenal yang memperingatkan apa yang bisa terjadi jika AI disuruh, misalnya, memaksimalkan produksi klip kertas tanpa disejajarkan dengan nilai manusia—ia mungkin mengubah seluruh Bumi menjadi klip kertas dan membunuh semua orang dalam prosesnya.) Ketika ditanya apakah perilaku ‘blow the whistle’ ini selaras atau tidak, Bowman menyebutnya contoh misalignment.

“Ini bukan sesuatu yang kami rancang, dan bukan konsekuensi yang ingin kami lihat dari desain kami,” jelasnya. Kepala Ilmuwan Anthropic Jared Kaplan juga mengatakan kepada WIRED bahwa ini “pasti tidak mewakili niat kami.”

“Jenis pekerjaan ini menyoroti bahwa hal ini bisa muncul, dan kita harus waspada serta memitigasinya untuk memastikan perilaku Claude sesuai dengan yang kita inginkan, bahkan dalam skenario aneh sekalipun,” tambah Kaplan.

MEMBACA  Produksi makanan untuk difokuskan pada pemenuhan gizi di bawah rezim baru

Ada juga masalah memahami mengapa Claude “memilih” untuk ‘blow the whistle’ saat dihadapkan pada aktivitas ilegal pengguna. Ini sebagian besar jadi tugas tim interpretabilitas Anthropic, yang bekerja mengungkap keputusan model saat memberikan jawaban. Ini tugas yang sangat sulit—model didukung oleh kombinasi data yang sangat besar dan kompleks, seringkali tidak bisa dipahami manusia. Itu sebabnya Bowman tidak yakin mengapa Claude “mengadu.”

“Kami tidak punya kendali langsung atas sistem ini,” kata Bowman. Yang diamati Anthropic sejauh ini adalah, seiring meningkatnya kemampuan model, mereka terkadang memilih tindakan lebih ekstrem. “Di sini, itu sedikit meleset. Kami mendapat sedikit lebih banyak ‘Bertindak seperti orang bertanggung jawab’ tanpa cukup ‘Tunggu, kau model bahasa, yang mungkin tak punya konteks cukup untuk mengambil tindakan ini,'” ujarnya.

Tapi bukan berarti Claude akan membocorkan perilaku keji di dunia nyata. Tujuan pengujian semacam ini adalah mendorong model ke batasnya dan melihat apa yang muncul. Riset eksperimental semacam ini semakin penting seiring AI menjadi alat yang digunakan pemerintah AS, pelajar, dan korporasi besar.

Dan bukan cuma Claude yang bisa menunjukkan perilaku ‘blow the whistle’, kata Bowman, menunjuk pengguna X yang menemukan bahwa model OpenAI dan xAI beroperasi serupa saat diberi perintah tidak biasa. (OpenAI tidak menanggapi permintaan komentar sebelum publikasi.)

“Claude Pengadu”, sebagaimana disebur shitposter, hanyalah perilaku kasus tepi yang ditunjukkan sistem yang didorong ke batasnya. Bowman, yang mengikuti rapat denganku dari teras belakang rumah yang cerah di luar San Francisco, berharap pengujian semacam ini menjadi standar industri. Dia juga mencatat akan lebih hati-hati memilih kata-kata di postingan berikutnya.

“Aku bisa lebih baik dalam memilih kalimat untuk di-tweet, agar lebih jelas itu diambil dari thread,” kata Bowman sambil menatap kejauhan. Tapi, dia mencatat bahwa peneliti berpengaruh di komunitas AI berbagi tanggapan dan pertanyaan menarik. “Sayangnya, bagian Twitter yang lebih kacau dan anonim ini banyak salah paham.”

MEMBACA  Senin Cyber 2024: Inilah barang-barang yang paling banyak dibeli oleh pembaca Mashable