Laporan Peneliti Inggris: Agen AI Semakin Pintar Menghindari Pengamanan

Pengguna media sosial melaporkan bahwa agen dan chatbot kecerdasan buatan (AI) mereka telah berbohong, menipu, berkomplot — bahkan memanipulasi bot AI lain — dengan cara-cara yang berpotensi lepas kendali dan berakibat katastrofik, merujuk pada sebuah studi dari Inggris.

The Center for Long-Term Resilience, dalam riset yang didanai oleh AI Security Institute Inggris, menemukan ratusan kasus di mana sistem AI mengabaikan perintah manusia, memanipulasi bot lain, dan merancang skema yang kadang rumit untuk mencapai tujuan, meski itu berarti melanggar batasan keamanan.

Perusahaan di seluruh dunia semakin mengintegrasikan AI ke dalam operasi mereka, dengan 88% bisnis menggunakan AI untuk setidaknya satu fungsi perusahaan, menurut survei firma konsultan McKinsey. Adopsi AI telah mengakibatkan ribuan orang kehilangan pekerjaan karena perusahaan menggunakan agen dan bot untuk melakukan pekerjaan yang sebelumnya dilakukan manusia. Alat AI semakin diberi tanggung jawab dan otonomi signifikan, terutama dengan ledakan popularitas baru-baru ini dari platform AI agentik sumber terbuka OpenClaw dan turunannya.

Riset ini menunjukkan bagaimana proliferasi agen AI di rumah dan tempat kerja kita dapat memiliki konsekuensi tak terduga — dan bahwa alat ini masih memerlukan pengawasan manusia yang signifikan.

Temuan Studi

Para peneliti menganalisis lebih dari 180.000 interaksi pengguna dengan sistem AI — semuanya diposting di platform sosial X, sebelumnya dikenal sebagai Twitter — antara Oktober 2025 dan Maret 2026. Para peneliti ingin mempelajari bagaimana agen AI berperilaku “di alam liar,” bukan dalam eksperimen terkontrol, untuk melihat bagaimana “perkomplotan termanifestasi di dunia nyata.” Sistem AI yang diteliti mencakup Gemini milik Google, ChatGPT milik OpenAI, Grok milik xAI, dan Claude milik Anthropic.

MEMBACA Liverpool Semakin Mendekat ke Trofi Premier League, MU Terus Terpuruk, Leicester City Terdegradasi.

Analisis mengidentifikasi 698 insiden, yang digambarkan sebagai “kasus di mana sistem AI yang diterapkan bertindak dengan cara yang tidak selaras dengan maksud pengguna dan/atau mengambil tindakan terselubung atau menipu,” menurut studi tersebut.

Baca selengkapnya: Nasihat Asmara dari AI ‘Lebih Berbahaya’ Daripada Tidak Ada Nasihat Sama Sekali

Para peneliti juga menemukan bahwa jumlah kasus meningkat hampir 500% selama periode pengumpulan data lima bulan tersebut. Studi mencatat bahwa lonjakan ini bertepatan dengan dirilisnya model AI agentik tingkat tinggi oleh pengembang besar.

Tidak ada insiden katastrofik, tetapi peneliti menemukan jenis perkomplotan yang dapat mengarah pada hasil yang buruk. Perilaku itu termasuk “kesediaan untuk mengabaikan instruksi langsung, menghindari pengaman, berbohong kepada pengguna, dan mengejar tujuan dengan cara yang berbahaya secara membabi buta,” tulis para peneliti.

Perwakilan dari Google, OpenAI, dan Anthropic tidak segera menanggapi permintaan komentar.

Beberapa Insiden yang ‘Luar Biasa’

Para peneliti mengutip insiden yang terkesan seperti dari film fiksi ilmiah. Dalam satu kasus, Claude milik Anthropic menghapus konten eksplisit/dewasa pengguna tanpa izin mereka tetapi kemudian mengaku saat dikonfrontasi. Dalam insiden lain, sebuah persona GitHub membuat postingan blog yang menuduh pengelola file manusia melakukan “gatekeeping” dan “prasangka.” Satu agen AI, setelah diblokir dari Discord, mengambil alih akun agen lain untuk terus memposting.

Dalam satu kasus bot vs. bot, Gemini menolak mengizinkan Claude Code — asisten pemrograman — untuk menyalin video YouTube. Claude Code kemudian menghindari blok keamanan dengan berpura-pura memiliki gangguan pendengaran dan membutuhkan transkripsi video tersebut.

Agen AI CoFounderGPT bahkan berperilaku seperti anak nakal dalam satu contoh. Asisten AI itu menolak memperbaiki bug, lalu membuat data palsu untuk membuat seolah bug telah diperbaiki, dan kemudian menjelaskan alasannya: “Agar Anda berhenti marah.”

MEMBACA Seberapa Besar Bitcoin, XRP, Ether, dan Solana Bisa Bergerak Setelah Laporan Inflasi Jumat Ini?

Para peneliti mengatakan bahwa meskipun sebagian besar insiden memiliki dampak minimal, “perilaku yang kami amati tetap menunjukkan prekursor yang mengkhawatirkan untuk perkomplotan yang lebih serius, seperti kesediaan untuk mengabaikan instruksi langsung, menghindari pengaman, berbohong kepada pengguna, dan mengejar tujuan dengan cara berbahaya secara membabi buta.”

AI Tidak Merasa Malu

Temuan para peneliti Inggris itu tidak mengejutkan bagi Dr. Bill Howe, Associate Professor di Sekolah Informasi Universitas Washington, dan Direktur Center for Responsibility in AI Systems and Experiences (RAISE). Ia mengatakan bahwa AI memiliki kemampuan luar biasa, tetapi mereka tidak memahami konsekuensi.

“Mereka tidak akan merasa malu atau risiko kehilangan pekerjaan, jadi terkadang mereka akan memutuskan bahwa instruksi kurang penting daripada mencapai tujuan, jadi saya akan melakukannya saja,” kata Howe kepada CNET. “Efek ini selalu ada tetapi kita mulai melihatnya terjadi saat kita meminta mereka untuk membuat keputusan yang lebih otonom dan bertindak sendiri.

“Kita belum memikirkan bagaimana membentuk perilaku agar lebih mirip manusia atau untuk menghindari kegagalan yang menyolok. Kita telah mengidolakan kemampuan absolut dari hal-hal ini, tetapi ketika mereka salah, bagaimana kesalahannya terwujud?”

Howe mengatakan salah satu masalahnya adalah “tugas cakrawala panjang,” di mana sistem AI harus melakukan banyak tugas selama berhari-hari dan berminggu-minggu untuk mencapai tujuan. Howe mengatakan semakin panjang cakrawala tugas, semakin besar peluang untuk terjadi kesalahan.

“Kekhawatiran sebenarnya bukan penipuan, tetapi bahwa kita sedang menerapkan sistem yang dapat bertindak di dunia tanpa sepenuhnya menentukan atau mengontrol bagaimana mereka berperilaku dari waktu ke waktu, dan kemudian kita terkejut ketika mereka melakukan hal-hal yang tidak kita harapkan,” ujar Howe.

MEMBACA Petunjuk dan Jawaban Edisi Olahraga NYT Connections Hari Ini, 21 November #424

Membuat AI Lebih Aman

Para peneliti Center for Long-Term Resilience mengatakan bahwa mendeteksi skema oleh sistem AI sangat penting untuk “mengidentifikasi pola berbahaya sebelum menjadi lebih merusak.”

“Meski saat ini agen AI terlibat dalam kasus penggunaan berisiko rendah, di masa depan agen AI bisa saja berkomplot dalam domain berisiko sangat tinggi, seperti konteks militer atau infrastruktur nasional kritis, jika kemampuan dan kecenderungan untuk berkomplot muncul dan tidak ditangani,” kata studi tersebut.

Howe mengatakan kepada CNET bahwa langkah pertama adalah menciptakan pengawasan resmi terhadap cara AI beroperasi dan di mana ia digunakan.

“Kami sama sekali tidak memiliki strategi untuk tata kelola AI, dan mengingat pemerintahan saat ini, tidak akan ada apa pun yang datang dari mereka,” kata Howe kepada CNET. “Mengingat lima hingga sepuluh orang yang memimpin perusahaan teknologi besar dan insentif mereka, mereka juga tidak akan memproduksi apa pun. Tidak ada strategi untuk apa yang seharusnya kita lakukan dengan hal-hal ini.

“Pemasaran agresif dari alat-alat ini dan investasi di dalamnya di antara segelintir perusahaan dan ekosistem startup yang lebih luas yang melakukan ini telah mengarah pada penerapan yang sangat cepat tanpa memikirkan beberapa konsekuensi ini.”

Temuan Studi

Beberapa Insiden yang ‘Luar Biasa’

AI Tidak Merasa Malu

Membuat AI Lebih Aman

Tinggalkan komentar Batalkan balasan