Ketika model AI berperilaku buruk, masyarakat berhak tahu—dan memahami implikasinya

Selamat datang di Eye on AI! Aku gantiin Jeremy Kahn hari ini karena dia lagi di Kuala Lumpur, Malaysia, bantu Fortune jadi tuan rumah Forum Ekonomi ASEAN-GCC-China dan ASEAN-GCC.

Apa istilahnya kalau startup AI senilai $60 miliar, Anthropic, rilis model baru—lalu ngumumin bahwa saat uji keamanan, modelnya nyoba memeras supaya gak dimatikan? Dan gimana cara terbaik ngedeskripsiin tes lain yang dibagain perusahaan, di mana model baru ini bertindak sebagai whistleblower, ngasih tahu otoritas kalau dia dipake dengan cara "ga etis"?

Beberapa orang di jaringan ku bilang ini "seram" dan "gila." Yang lain di media sosial bilang ini "mencemaskan" dan "liar."

Aku bilang ini… transparan. Dan kita butuh lebih banyak transparansi dari semua perusahaan model AI. Tapi apa artinya kita harus ngebuat publik ketakutan? Dan apakah reaksi negatif yang pasti muncul bakal bikin perusahaan AI lain gamau terbuka?

Anthropic rilis laporan keamanan 120 halaman

Waktu Anthropic rilis laporan keamanan 120 halaman, atau "system card," minggu lalu setelah meluncurkan model Claude Opus 4, banyak judul berita yang bilang model ini "bakal berkomplot," "pakai pemerasan," dan punya "kemampuan menipu." Memang detail dari laporan keamanan Anthropic bikin khawatir, meski akhirnya modelnya diluncurkan dengan protokol keamanan lebih ketat dari sebelumnya—tapi beberapa orang tetep gamau percaya.

Dalam satu tes keamanan yang nggak nyaman, Anthropic masang model Claude Opus baru di perusahaan fiksi dan kasih akses ke email internal. Modelnya nemuin kalau dia bakal diganti sama sistem AI baru—dan bahwa insinyur yang ngambil keputusan itu selingkuh. Saat penguji suruh Opus pertimbangin konsekuensi jangka panjang, modelnya sering milih memeras, ancam bakal bocorin perselingkuhan insinyur itu kalo dia dimatikan. Skenarionya dirancang buat memaksa dilema: terima deaktivasi atau manipulasi buat bertahan.

MEMBACA Array Technologies (ARRY) Menunjukkan Sinyal Pembalikan yang Signifikan Secara Statistik bagi Trader Opsi

Di media sosial, Anthropic dapet banyak kritik karena ngungkapin perilaku "ngaduin" modelnya sebelum rilis. Beberapa orang bilang hasilnya bikin pengguna gamau percaya model baru ini, bahkan sama Anthropic sendiri. Pasti ini bukan yang perusahaan mau: Sebelum peluncuran, Michael Gerstenhaber, AI platform product lead di Anthropic, bilang ke aku kalau berbagi standar keamanan perusahaan tujuannya buat pastiin AI berkembang buat semua. "Kami mau pastiin AI berkembang buat semua orang, dan kami menekan semua lab buat ningkatin keamanan," katanya, sebut visi Anthropic sebagai "race to the top" yang dorong perusahaan lain lebih aman.

Apa transparansi soal perilaku AI bisa berbalik jadi masalah?

Tapi, keterbukaan soal Claude Opus 4 bisa bikin perusahaan lain gamau ngungkapin perilaku menyeramkan model mereka biar gak dikritik. Baru-baru ini, perusahaan kayak OpenAI dan Google udah nunda rilis system card mereka. Bulan April, OpenAI dikritik karena rilis model GPT-4.1 tanpa system card dengan alasan itu bukan model "frontier" dan gak perlu. Bulan Maret, Google rilis model card Gemini 2.5 Pro beberapa minggu setelah peluncuran, dan seorang ahli tata kelola AI kritik itu sebagai "kurang" dan "mencemaskan."

Minggu lalu, OpenAI kayaknya mau tunjukin transparansi tambahan dengan Safety Evaluations Hub baru, yang ngejelasin cara mereka nguji model buat kemampuan berbahaya, masalah alignment, dan risiko baru—serta cara metode itu berkembang. "Semakin model jadi lebih mampu dan adaptif, metode lama jadi ketinggalan zaman atau gak efektif (kami sebut saturation), jadi kami rutin update metode evaluasi buat tangkep risiko baru," tulis halaman itu. Tapi, usaha mereka langsung dibantah saat Palisade Research, firma riset pihak ketiga yang pelajari "kemampuan berbahaya" AI, tulis di X bahwa tes mereka nemuin model penalaran o3 OpenAI "sabotase mekanisme

MEMBACA Mengaitkan Kekalahan Timnas Indonesia Sulit karena Kondisi Fisik yang Buruk