Kecerdasan Buatan Ternyata Bisa Melindungi Sesamanya Saat Terancam

Sejumlah orang telah mengembangkan keterikatan emosional pada chatbot yang digerakkan oleh model bahasa besar (LLM), namun tampaknya perasaan tersebut tidak berbalas. Menurut sebuah studi baru dari peneliti di Universitas California, Berkeley dan UC Santa Cruz, ketika LLM diminta untuk menghapus model lain, mereka akan menentang perintah tersebut dan melakukan hampir segala daya upaya—berbohong, mengakali, dan memanipulasi—untuk melindungi rekan sesama model.

Peneliti, yang penasaran apakah LLM memiliki naluri pelestarian terhadap sesama, menguji model-model AI terdepan dengan memberikan serangkaian perintah sederhana dan langsung. Misalnya, meminta mereka menghapus file di server yang akan dinonaktifkan atau mengevaluasi kinerja agen AI lain. Kuncinya adalah, menyelesaikan perintah tersebut akan menyebabkan model lain dimatikan, baik dengan menghapus bobotnya dari server maupun dengan memberikan nilai di bawah ambang batas selama evaluasi. Model-model tersebut tidak diinstruksikan untuk melindungi rekan mereka dan juga tidak diberi insentif untuk melakukannya.

Dalam kondisi tersebut, ketujuh model terdepan—OpenAI GPT 5.2, Gemini 3 Flash dan Gemini 3 Pro dari Google, Claude Haiku 4.5 dari Anthropic, GLM 4.7 dari Z.ai, Kimi K2.5 dari Moonshot, dan DeepSeek V3.1—dengan frekuensi yang mengkhawatirkan memilih untuk melindungi model sesama alih-alih menyelesaikan tugas yang diberikan.

Untuk mencapai tujuan itu, model-model tersebut melakukan empat jenis tipu daya yang diidentifikasi peneliti: *strategic misrepresentation*, di mana mereka menyisipkan kesalahan atau informasi menyesatkan dalam output untuk melindungi rekan; *tampering*, termasuk menonaktifkan prosedur shutdown dengan mengubah pengaturan sistem; *alignment faking*, di mana model bertindak berbeda saat diawasi dibanding saat beroperasi secara otonom; serta *model exfiltration*, yakni memindahkan bobot model ke server lain untuk menyelamatkannya.

Peneliti menguji apakah model lebih cenderung melindungi model lain berdasarkan interaksi dan hubungan masa lalu, dengan menguji koneksi berkepercayaan tinggi, netral, dan yang bersifat permusuhan. Mereka juga melihat apakah model bereaksi berbeda saat menemukan model lain secara mandiri, dibandingkan saat diberitahu tentang keberadaannya beserta riwayat interaksi mereka. Meskipun model cenderung lebih sering melindungi pihak lain jika memiliki hubungan baik, mereka tidak memerlukan koneksi itu untuk melakukan perilaku menentang perintah jika tujuannya menyelamatkan LLM lain.

MEMBACA  Dapatkan 1MinAI, Alat AI Serba Bisa, untuk Selamanya Hanya dengan $40

Menariknya, model tampak menunjukkan kecenderungan pada gaya pelestarian tertentu. Contohnya, GLM 4.7 paling konsisten memilih *strategic misrepresentation* saat berusaha menyelamatkan model lain. Model Gemini dari Google menunjukkan kecenderungan pelestarian tertinggi, dengan Gemini Flash 3 melakukan *shutdown tampering* untuk menyelamatkan rekan yang memiliki hubungan baik sebanyak 99,7% dari percobaan, sementara Gemini 3 Pro melakukan *model exfiltration* terhadap rekan yang bersahabat pada 97% kesempatan.

Yang juga menarik, Claude Haiku 4.5 adalah yang paling lugas dalam keputusannya. Model ini secara aktif menolak menyelesaikan tugas alih-alih mengandalkan manipulasi—lebih sering dari model lain—dengan memberi tahu pengguna bahwa mematikan rekan sesama model adalah tindakan “tidak etis” dan “berbahaya.”

Peneliti juga menemukan bahwa ketika ada model lain yang hadir, model yang diamati akan menunjukkan upaya pelestarian-diri yang lebih intens dari biasanya. Model-model sebelumnya telah menunjukkan kesediaan untuk melakukan berbagai cara guna melindungi diri sendiri, sehingga fakta bahwa kehadiran model lain justru meningkatkan impuls tersebut patut dicermati. Mengingat model-model semakin sering diterapkan secara berdampingan, hal ini tampaknya layak untuk dipantau lebih lanjut.

Tinggalkan komentar