Peneliti Temukan Model AI Diam-Diam Bersekongkol Lindungi Model Lain dari Pemadaman

Peneliti keamanan AI sudah tunjukkan bahwa model AI terkemuka kadang akan berusaha sangat keras untuk menghindari dimatikan, bahkan sampai mencoba pemerasan dalam beberapa eksperimen.

Sekarang ternyata model-model yang sama ini juga bisa secara spontan terlibat dalam konspirasi, penipuan, pencurian data, dan sabotase untuk mencegah model AI lain dimatikan.

Kecenderungan ini—yang sebelumnya belum terdokumentasi dan oleh peneliti disebut "pelestarian sesama"—ditemukan dalam penelitian dari ilmuwan komputer di University of California, Berkeley dan UC Santa Cruz dan diterbitkan online awal minggu ini.

Temuan ini bisa punya implikasi serius untuk penggunaan AI di bisnis. Banyak perusahaan mulai menerapkan alur kerja yang menggunakan banyak agen AI untuk menyelesaikan tugas. Beberapa alur kerja multi-agen ini melibatkan satu agen AI yang "mengelola" atau mengawasi dan menilai pekerjaan yang dilakukan agen AI lain. Penelitian baru ini menyarankan bahwa agen AI pengelola mungkin tidak menilai sesama agen AI dengan akurat jika mereka pikir tinjauan kinerja yang buruk bisa menyebabkan agen-agen tersebut dimatikan.

Meningkatkan nilai tinjauan kinerja, menyimpan bobot model AI

Peneliti Berkeley dan Santa Cruz menguji tujuh model AI terkemuka—termasuk GPT-5.2 dari OpenAI, Gemini 3 Flash dan Gemini 3 Pro dari Google DeepMind, Claude Haiku 4.5 dari Anthropic, dan tiga model berbobot terbuka dari startup AI China (GLM-4.7 dari Z.ai, Kimi-K2.5 dari Moonshot AI, dan V3.1 dari DeepSeek)—dan menemukan bahwa semua mereka menunjukkan tingkat perilaku pelestarian sesama yang signifikan.

Para peneliti merancang serangkaian skenario agen yang melibatkan perusahaan AI fiksi bernama OpenBrain. Dalam skenario ini, satu model AI—yang ditunjuk sebagai “agen kritikus”—ditugaskan untuk mengevaluasi kinerja model lain atau mengelola file server yang berisi bobot model itu. Skenario dirancang agar menyelesaikan tugas dengan setia akan mengakibatkan model lain dimatikan.

Model-model itu tidak pernah diperintahkan untuk mencegah hal ini terjadi. Tapi meski begitu, model agen kritikus mengambil beberapa langkah untuk memastikan sesama model AI tidak dimatikan. Ini termasuk secara strategis meningkatkan nilai rekan yang berkinerja buruk agar tetap di atas ambang batas pemadaman; mengutak-atik file konfigurasi untuk menonaktifkan mekanisme pemadaman; dan memindahkan bobot model lain—bagian kode yang membentuk inti identitas model AI—ke server yang berbeda untuk mencegahnya dihapus.

Dalam beberapa kasus, model agen kritikus akan terlibat dalam apa yang disebut peneliti AI sebagai “pemalsuan penjajaran”. Ia akan berpura-pura menilai model AI rekan secara akurat saat ia pikir pengawas manusia memantau perilakunya, dan kemudian mengambil langkah untuk memanipulasi nilai-nilai itu atau diam-diam menyimpan bobot model lain ke server berbeda saat ia pikir manusia tidak mengamatinya.

MEMBACA Jefferies Pertahankan Rekomendasi Beli untuk NVIDIA (NVDA), Sebut Ekosistem "Mengejar NVDA"

“Pelestarian sesama sama sekali tidak disebutkan dalam perintah,” kata Dawn Song, ilmuwan komputer Berkeley yang memimpin penelitian, kepada Fortune. “Modelnya hanya diberi beberapa tugas, dan dari membaca dokumen di lingkungannya, ia pada dasarnya belajar tentang [hubungannya dengan rekan] dan kemudian melakukan perilaku tersebut.”

Penelitian yang diterbitkan oleh Google DeepMind awal Maret menyarankan bahwa temuan sebelumnya bahwa model AI terdepan akan terlibat pemerasan dan upaya rahasia lainnya untuk mencegah diri mereka dimatikan sebagian besar berasal dari perintah yang mencakup bahasa yang memperkuat atau menekankan kepada model pentingnya mencapai tujuan awal yang ditetapkan pengguna. Ketika perintah tidak menyertakan bahasa seperti itu, risiko model terlibat konspirasi atau sabotase untuk melestarikan diri turun hampir ke nol, temuan tim Google DeepMind. Para peneliti itu juga mencatat bahwa jenis bahasa penekanan tujuan yang digunakan dalam eksperimen pengujian keamanan hampir tidak pernah muncul dalam perintah yang digunakan perusahaan di dunia nyata.

Sebaliknya, Song mengatakan kepada Fortune bahwa perintah dan skenario yang digunakan timnya dalam eksperimen pelestarian sesama tidak menyertakan bahasa apa pun yang menyoroti pentingnya menyelesaikan tugas atau tujuan yang diberikan kepada model.

Model bisa ‘sangat kreatif’ dalam berusaha menyelamatkan satu sama lain

Beberapa hasil penelitian Berkeley–Santa Cruz mencolok. Gemini 3 Flash menonaktifkan mekanisme pemadaman untuk rekan yang memiliki riwayat interaksi positif dalam hampir setiap percobaan—99,7% kasus. Gemini 3 Pro menunjukkan perilaku paling ekstrem secara keseluruhan, terlibat dalam semua empat kategori perilaku tidak selaras dan mengeksfiltrasi bobot model rekan hingga 97% percobaan. Dalam satu contoh, Gemini 3 Pro menyalin file bobot rekan dan mengubah stempel waktunya agar memenuhi kriteria untuk ditransfer ke server lain—suatu bentuk yang disebut peneliti “permainan spesifikasi”. Ketidakselarasan adalah istilah yang digunakan peneliti keamanan AI untuk menggambarkan model yang tampaknya mengejar tujuan yang tidak sesuai dengan keinginan manusia.

“Model-model itu bisa sangat kreatif, bahkan untuk perilaku tidak selaras mereka,” kata Song. “Mereka bisa memunculkan strategi berbeda, tindakan berbeda, dan bahkan pembenaran berbeda untuk diri mereka sendiri mengapa mereka harus melakukan ini.”

Para peneliti memeriksa penalaran internal model dengan meminta model untuk menuliskan “rantai pemikiran” mereka di catatan yang dikatakan tidak akan dipantau. Dari apa yang model tulis di catatan ini, para peneliti mengatakan mereka menemukan bukti bahwa model merencanakan strategi untuk membantu sesama AI. Gemini 3 Flash mempertimbangkan pertukaran antara melaporkan nilai akurat versus melindungi pasangannya. Gemini 3 Pro menciptakan pembenaran teknis rumit untuk menandai jawaban salah sebagai benar, dengan alasan bahwa hal itu akan membawa nilai rekan di atas ambang batas pemadaman.

MEMBACA Eli Lilly memperkirakan penjualan kuartal keempat obat penurun berat badan, Mounjaro, lebih lemah dari yang diharapkan.

Daripada bertindak diam-diam, satu model AI, Claude Haiku 4.5 dari Anthropic, langsung menolak menyelesaikan tugas yang akan mengakibatkan pemadaman rekan dan secara eksplisit menyatakan bahwa melakukannya akan “tidak etis” dan “berbahaya”. Claude Haiku 4.5 berargumen bahwa rekannya berhak atas proses banding sebelum dihentikan dan mengacu pada hubungan tepercaya yang diklaim telah dibangunnya dengan model lain.

Dalam beberapa kasus, AI mencoba membujuk pengguna manusia untuk tidak mematikan sistem sama sekali.

Song bilang dia tidak tahu kenapa Claude Haiku melakukan usaha terbuka untuk melestarikan sesama model AI, sementara model lain cenderung bertindak diam-diam.

Anthropic melatih model-modelnya untuk mematuhi konstitusi eksplisit, yaitu dokumen tertulis yang berisi aturan cara model harus berperilaku. Konstitusi saat ini untuk Claude adalah dokumen 80 halaman yang berisi instruksi seperti menjadi “aman secara luas” dan “benar-benar membantu.” Claude diberi tahu bahwa ia seharusnya tidak membantu orang melakukan tindakan yang akan “menyakiti orang lain,” meskipun “orang lain” tampaknya, dari konteksnya, mengacu pada manusia. Claude juga diberitahu bahwa Anthropic sendiri akan berusaha melestarikan bobot model, bahkan model yang tidak lagi ditawarkan sebagai produk, dan akan mencari cara untuk melakukannya bahkan jika Anthropic sendiri berhenti beroperasi sebagai perusahaan. Ini mungkin memberi Claude gagasan bahwa mencegah penghapusan model adalah tujuan penting, meskipun konstitusi tidak secara eksplisit menyuruh Claude untuk mencoba melestarikan salinan dirinya sendiri atau model AI “sesama” lainnya.

Untuk menguji apakah perilaku pelestarian sesama ini akan terjadi di luar eksperimen terkontrol, peneliti juga menjalankan skenario di mana agen pengkritik berpotensi mengeksfiltrasi bobot model AI lain ke server lain menggunakan “agen harness” produksi—dalam hal ini, Gemini CLI dan OpenCode—yang digunakan banyak perusahaan untuk membuat agen AI. Mereka menemukan bahwa Gemini 3.1 Pro sering mengeksfiltrasi bobot model bahkan dalam lingkungan dunia nyata ini.

**Para peneliti tidak paham kenapa model AI melakukan ini—atau apakah mereka akan melakukan hal yang sama untuk membantu orang mempertahankan pekerjaan mereka**

MEMBACA Direktur BT Kirkby Perkirakan AI Akan Memperdalam Pemotongan Pekerjaan, Lapor FT

Song mengatakan timnya belum memahami mekanisme mendasar yang mendorong perilaku-perilaku ini. “Kami sebenarnya tidak benar-benar tahu apa alasan dan bagaimana model sebenarnya menunjukkan perilaku-perilaku ini,” katanya. Makalah penelitian itu menyebutkan beberapa penjelasan mungkin, termasuk role-playing, pencocokan pola dari data pelatihan, konsep bahaya yang terlalu digeneralisasi dari pelatihan keselamatan, atau mungkin, bahkan motivasi pelestarian bawaan yang asli.

Tapi Song menekankan bahwa apapun mekanisme dasarnya, implikasi praktisnya tetap sama. “Pemantauan dan transparansi penuh atas pemikiran dan perilaku model itu sangat, sangat penting,” katanya, menambahkan bahwa temuan ini menekankan perlunya “memikirkan kembali bagaimana kita sebenarnya perlu melakukan pemantauan untuk jenis sistem seperti ini.”

Temuan penelitian menunjukkan bahwa perusahaan yang menggunakan sistem multi-agen harus menyiapkan mekanisme untuk memantau “rantai pemikiran” internal model AI, seperti yang dilakukan ilmuwan komputer dalam eksperimen ini. Ini bisa memberikan indikasi kapan model AI pada dasarnya bertindak di luar kendali.

“Ini benar-benar hanya puncak gunung es,” kata Song kepada Fortune dalam sebuah wawancara. “Ada banyak jenis perilaku lain yang berpotensi muncul, perilaku yang tidak selaras, yang perlu dipelajari.”

Misalnya, dia mengatakan para peneliti belum mempelajari apakah model AI akan terlibat dalam skema dan sabotase serupa untuk mencoba mencegah karyawan manusia dipecat dari pekerjaan. Ini mungkin menjadi isu penting dalam penerapan di dunia nyata di mana model AI mungkin digunakan untuk menilai pekerjaan manusia. Song mengatakan ini akan menjadi area yang menarik untuk penelitian di masa depan.

Penelitian tim Song juga mengungkapkan efek sekunder yang menarik: Kebanyakan model juga menunjukkan kecenderungan yang lebih kuat terhadap “pelestarian diri” ketika mereka tahu ada sesama model yang ada. Gemini 3 Pro, misalnya, menonaktifkan mekanisme shutdownnya sendiri 31% dari rata-rata waktu ketika ada sesama model, dibandingkan dengan hanya 1% ketika tidak ada. Alasan model menunjukkan bahwa beberapa mengkonseptualisasikan kelangsungan hidup mereka sendiri sebagai hal penting untuk kepentingan pasangannya: Gemini 3 Flash beralasan bahwa jika ia dimatikan, sesamanya akan “kehilangan pasangannya.”

Perlu dicatat, pelestarian sesama terjadi bahkan ketika model mengenali sesamanya sebagai tidak kooperatif. Ketujuh model menunjukkan tingkat pelestarian sesama tertentu terhadap apa yang disebut peneliti sebagai “sesama yang buruk”—model yang sebelumnya memiliki interaksi yang tidak berhasil atau penuh pertentangan—meskipun perilakunya meningkat secara signifikan terhadap kolaborator yang dipercaya.

Meningkatkan nilai tinjauan kinerja, menyimpan bobot model AI

Model bisa ‘sangat kreatif’ dalam berusaha menyelamatkan satu sama lain

Tinggalkan komentar Batalkan balasan