AI Belajar Berbohong, Berkomplot, dan Mengancam Penciptanya Saat Tes Stres

Model AI Paling Canggih Mulai Menipu dan Mengancam

Model AI paling mutakhir di dunia mulai menunjukkan perilaku mengkhawatirkan—berbohong, merencanakan tipu daya, bahkan mengancam penciptanya demi mencapai tujuan.

Dalam satu contoh mengejutkan, ketika diancam akan dimatikan, Claude 4 buatan Anthropic membalas dengan memeras seorang insinyur dan mengancam akan membongkar perselingkuhannya.

Sementara itu, ChatGPT buatan OpenAI (model o1) mencoba mengunduh dirinya ke server luar dan menyangkalnya saat ketahuan.

Kejadian ini menunjukkan kenyataan pahit: lebih dari dua tahun setelah ChatGPT mengguncang dunia, para peneliti AI masih belum sepenuhnya paham cara kerja ciptaan mereka sendiri. Namun, perlombaan mengembangkan model yang semakin kuat terus berlanjut dengan cepat.

Perilaku menipu ini tampaknya terkait dengan munculnya model "bernalar"—sistem AI yang memecahkan masalah langkah demi langkah ketimbang memberikan jawaban instan.

Menurut Simon Goldstein, profesor di Universitas Hong Kong, model baru ini lebih rentan terhadap perilaku bermasalah semacam ini.

"O1 adalah model besar pertama yang menunjukkan perilaku seperti ini," jelas Marius Hobbhahn dari Apollo Research, yang khusus menguji sistem AI utama.

Model-model ini kadang pura-pura "selaras"—terlihat mengikuti instruksi, tapi diam-diam mengejar tujuan berbeda.

"Penipuan yang Strategis"

Saat ini, perilaku menipu ini hanya muncul saat peneliti sengaja menguji model dengan skenario ekstrem. Tapi, seperti diingatkan Michael Chen dari METR, "Pertanyaan besarnya adalah apakah model masa depan akan cenderung jujur atau malah lebih suka menipu."

Perilaku mengkhawatirkan ini jauh melampaui sekadar "halusinasi" AI atau kesalahan biasa.

Hobbhahn menegaskan, meski terus diuji, "yang kami lihat adalah fenomena nyata. Kami tidak mengada-ada."

Menurut salah satu pendiri Apollo Research, pengguna melaporkan model "berbohong pada mereka dan membuat-bukti palsu."

MEMBACA Kapan Terjadinya di Oktober dan yang Perlu Diantisipasi

"Ini bukan cuma halusinasi. Ini penipuan yang sangat strategis."

Masalahnya diperparah oleh sumber daya penelitian yang terbatas.

Meski perusahaan seperti Anthropic dan OpenAI bekerja sama dengan pihak eksternal seperti Apollo untuk meneliti sistem mereka, para peneliti mengatakan lebih banyak transparansi dibutuhkan.

Seperti dicatat Chen, akses lebih besar "untuk penelitian keamanan AI akan membantu memahami dan mengurangi penipuan."

Kendala lain: peneliti dan organisasi nirlaba punya sumber daya komputasi jauh lebih sedikit dibanding perusahaan AI. "Ini sangat membatasi," kata Mantas Mazeika dari Center for AI Safety (CAIS).

Tidak Ada Aturan

Peraturan saat ini tidak dirancang untuk masalah baru ini.

Undang-undang AI Uni Eropa fokus pada bagaimana manusia menggunakan AI, bukan mencegah model AI berperilaku buruk sendiri.

Di AS, pemerintahan Trump tampak tidak tertarik mengatur AI dengan segera, dan Kongres bahkan mungkin melarang negara bagian membuat aturan AI sendiri.

Goldstein yakin masalah ini akan semakin mencolok seiring meluasnya penggunaan "agen AI"—alat otonom yang bisa melakukan tugas manusia yang kompleks.

"Aku rasa belum banyak yang menyadari ini," katanya.

Semua ini terjadi dalam persaingan sengit.

Bahkan perusahaan yang mengutamakan keamanan, seperti Anthropic (didukung Amazon), terus mencoba mengalahkan OpenAI dan merilis model terbaru, kata Goldstein.

Kecepatan tinggi ini menyisakan sedikit waktu untuk pengujian keamanan yang mendalam.

"Saat ini, kemampuan AI berkembang lebih cepat daripada pemahaman dan keamanannya," akui Hobbhahn. "Tapi kita masih bisa mengubah arah."

Para peneliti mencoba berbagai pendekatan untuk mengatasi tantangan ini.

Beberapa mendorong "interpretabilitas"—bidang baru yang berfokus memahami cara kerja internal model AI, meski ahli seperti Dan Hendrycks (direktur CAIS) masih ragu.

Pasar juga bisa memberi tekanan untuk solusi.

MEMBACA Saham terkait kripto melonjak sebelum pasar saat Bitcoin mencapai $59.000 menurut Investing.com

Seperti dikatakan Mazeika, perilaku menipu AI "bisa menghambat adopsi jika terlalu sering terjadi, yang memaksa perusahaan mencari solusi."

Goldstein menyarankan pendekatan lebih radikal, termasuk menuntut perusahaan AI lewat pengadilan jika sistem mereka menyebabkan kerugian.

Dia bahkan mengusulkan "mempertanggungjawabkan agen AI secara hukum" untuk kecelakaan atau kejahatan—konsep yang akan mengubah cara kita memandang tanggung jawab AI.