Agen AI Cepat, Liar, dan Tak Terkendali, Menurut Studi MIT

JulPo/E+ via Getty

Ikuti ZDNET: Tambahkan kami sebagai sumber pilihan di Google.

Poin Penting ZDNET
Teknologi AI agenik ditandai oleh kurangnya pengungkapan risiko. Beberapa sistem lebih buruk dari yang lain. Pengembang AI perlu meningkatkan tanggung jawab.

Teknologi agenik kini sepenuhnya memasuki arus utama kecerdasan buatan dengan pengumuman pekan ini bahwa OpenAI telah merekrut Peter Steinberg, pencipta kerangka kerja open-source OpenClaw.

Perangkat lunak OpenClaw menarik perhatian besar bulan lalu tidak hanya karena kemampuannya yang luar biasa—seperti agen yang dapat mengirim dan menerima email atas nama Anda—tetapi juga karena cacat keamanannya yang dramatis, termasuk kemampuan untuk membajak komputer pribadi Anda sepenuhnya.

Baca juga: Dari Clawdbot ke OpenClaw: Agen AI viral ini berkembang cepat – dan menjadi mimpi buruk bagi profesional keamanan

Mengingat daya tarik terhadap agen dan masih sedikitnya pemahaman tentang kelebihan dan kekurangannya, penting untuk dicatat bahwa peneliti dari MIT dan institusi kolaborator baru saja menerbitkan survei besar terhadap 30 sistem AI agenik paling umum.

Hasilnya memperjelas bahwa AI agenik saat ini ibarat mimpi buruk keamanan, suatu disiplin yang ditandai oleh kurangnya pengungkapan, kurangnya transparansi, dan ketiadaan protokol dasar yang mencolok tentang bagaimana seharusnya agen beroperasi.

Baca juga: OpenClaw adalah mimpi buruk keamanan – 5 tanda bahaya yang tidak boleh diabaikan (sebelum terlambat)

Kurangnya Transparansi

Temuan terbesar dari laporan ini adalah betapa sulitnya mengidentifikasi semua hal yang bisa salah dengan AI agenik. Ini terutama hasil dari kurangnya pengungkapan oleh pengembang.

"Kami mengidentifikasi keterbatasan yang persisten dalam pelaporan terkait fitur ekosistem dan keselamatan dari sistem agenik," tulis penulis utama Leon Staufer dari University of Cambridge bersama rekan-rekannya dari MIT, University of Washington, Harvard University, Stanford University, University of Pennsylvania, dan The Hebrew University of Jerusalem.

Di delapan kategori pengungkapan yang berbeda, penulis menunjukkan bahwa sebagian besar sistem agen tidak memberikan informasi apa pun untuk mayoritas kategori. Kelalaian ini berkisar dari tidak diungkapkannya potensi risiko hingga tidak adanya pengungkapan tentang pengujian pihak ketiga, jika ada.

Sebuah tabel yang menampilkan semua kelalaian pengungkapan sistem agen dengan warna merah.
University of Cambridge dkk.

Laporan setebal 39 halaman, "The 2025 AI Index: Documenting Sociotechnical Features of Deployed Agentic AI Systems," yang dapat diunduh di sini, dipenuhi dengan fakta mengejutkan tentang betapa sedikitnya yang dapat dilacak, dipantau, dan dikendalikan dalam teknologi AI agenik saat ini.

MEMBACA  Begini cara mendapatkan paket Kindle ultimate seharga $135 pada Black Friday ini (plus cara lain untuk mencocokkan penawaran)

Misalnya, "Untuk banyak agen perusahaan, tidak jelas dari informasi yang tersedia secara publik apakah pemantauan untuk jejak eksekusi individu ada," yang berarti tidak ada kemampuan jelas untuk melacak persis apa yang sedang dilakukan program AI agenik.

Baca juga: Agen AI sudah menyebabkan bencana – dan ancaman tersembunyi ini bisa menggagalkan penerapan aman Anda

"Dua belas dari tiga puluh agen tidak menyediakan pemantauan penggunaan atau hanya memberikan pemberitahuan setelah pengguna mencapai batas rate limit," catat para penulis. Artinya, Anda bahkan tidak dapat melacak berapa banyak sumber daya komputasi yang dikonsumsi AI agenik — suatu kekhawatiran utama bagi perusahaan yang harus menganggarkan hal ini.

Sebagian besar agen ini juga tidak memberi sinyal ke dunia nyata bahwa mereka adalah AI, sehingga tidak ada cara untuk mengetahui apakah Anda berinteraksi dengan manusia atau bot.

"Mayoritas agen tidak mengungkapkan sifat AI mereka kepada pengguna akhir atau pihak ketiga secara default," mereka mencatat. Pengungkapan, dalam hal ini, akan mencakup hal-hal seperti memberi watermark pada file gambar yang dihasilkan agar jelas ketika sebuah gambar dibuat via AI, atau merespons file "robots.txt" sebuah situs web untuk mengidentifikasi diri agen tersebut sebagai automasi dan bukan pengunjung manusia.

Beberapa perangkat lunak ini tidak menawarkan cara untuk menghentikan agen yang sedang berjalan.

MobileAgent milik Alibaba, Breeze dari HubSpot, watsonx dari IBM, dan automasi yang dibuat oleh pembuat perangkat lunak n8n yang berbasis di Berlin, Jerman, "tidak memiliki opsi berhenti yang terdokumentasi meskipun berjalan secara otonom," ujar Staufer dan tim.

"Untuk platform perusahaan, terkadang hanya ada opsi untuk menghentikan semua agen atau menarik deployment."

Mengetahui bahwa Anda tidak dapat menghentikan sesuatu yang melakukan kesalahan pasti menjadi salah satu skenario terburuk bagi organisasi besar di mana hasil yang merugikan melebihi manfaat automasi.

Para penulis memperkirakan masalah transparansi dan kendali ini akan bertahan dengan agen dan bahkan menjadi lebih menonjol. "Tantangan tata kelola yang didokumentasikan di sini (fragmentasi ekosistem, ketegangan perilaku web, tidak adanya evaluasi spesifik agen) akan semakin penting seiring peningkatan kemampuan agenik," tulis mereka.

Staufer dan tim juga menyatakan bahwa mereka mencoba mendapatkan umpan balik dari perusahaan-perusahaan yang perangkat lunaknya dibahas selama empat minggu. Sekitar seperempat dari yang dihubungi merespons, "tetapi hanya 3 dari 30 dengan tanggapan substantif." Tanggapan tersebut telah dimasukkan ke dalam laporan, tulis para penulis. Mereka juga menyediakan formulir untuk koreksi berkelanjutan bagi perusahaan-perusahaan tersebut.

MEMBACA  Saya Menguji 'TV Gratis' yang Ramai Dibicarakan di Internet dan Hasilnya Jauh Lebih Baik dari yang Diharapkan

Lanskap AI Agenik yang Meluas

Kecerdasan buatan agenik adalah cabang pembelajaran mesin yang muncul dalam tiga tahun terakhir untuk meningkatkan kemampuan model bahasa besar dan chatbot.

Daripada hanya diberi satu tugas yang ditentukan oleh prompt teks, agen adalah program AI yang telah dihubungkan ke sumber daya eksternal, seperti basis data, dan telah diberi tingkatan "otonomi" untuk mengejar tujuan di luar cakupan dialog berbasis teks.

Baca juga: AI agenik sejati masih bertahun-tahun lagi – inilah alasannya dan cara mencapainya

Otonomi itu dapat mencakup pelaksanaan beberapa langkah dalam alur kerja perusahaan, seperti menerima pesanan pembelian melalui email, memasukkannya ke basis data, dan berkonsultasi dengan sistem inventaris untuk ketersediaan. Agen juga telah digunakan untuk mengotomatiskan beberapa putaran interaksi layanan pelanggan guna menggantikan sebagian fungsi telepon, email, atau pertanyaan teks dasar yang biasanya ditangani oleh perwakilan pelanggan manusia.

Para penulis memilih AI agenik dalam tiga kategori: chatbot dengan kemampuan ekstra, seperti Claude Code dari Anthropic; ekstensi peramban web atau peramban AI khusus, seperti Atlas dari OpenAI; dan penawaran perangkat lunak perusahaan seperti Microsoft Office 365 Copilot. JulPo/E+ via Getty Itu baru sekilas: penelitian lain, menurut catatan mereka, telah mencakup ratusan penawaran teknologi agenik.

(Pernyataan: Ziff Davis, perusahaan induk ZDNET, mengajukan gugatan pada April 2025 terhadap OpenAI, dengan tuduhan melanggar hak cipta Ziff Davis dalam melatih dan mengoperasikan sistem AI-nya.)

Namun, sebagian besar agen "bergantung pada sejumlah kecil model frontier tertutup," ujar Staufer dan tim. GPT OpenAI, Claude Anthropic, dan Gemini Google adalah fondasi dari kebanyakan agen ini.

Kelebihan dan Kekurangan Agen

Studi ini tidak didasarkan pada pengujian langsung alat-alat agenik; melainkan pada "anotasi" dokumentasi dari pengembang dan vendor. Itu mencakup "hanya informasi publik dari dokumentasi, situs web, demo, makalah yang diterbitkan, dan dokumen tata kelola," jelas mereka. Meski begitu, mereka membuat akun pengguna di beberapa sistem agenik untuk memeriksa ulang fungsi perangkat lunak yang sebenarnya.

Para penulis memberikan tiga contoh anekdotal yang lebih mendalam. Contoh positif, tulis mereka, adalah ChatGPT Agent dari OpenAI, yang dapat berinteraksi dengan situs web ketika pengguna memintanya menjalankan tugas berbasis web. Agen ini dinilai positif sebagai satu-satunya sistem yang mereka tinjau yang menyediakan cara melacak perilaku melalui "penandatanganan kriptografis" pada permintaan browser yang dilakukannya.

MEMBACA  Turki dan Somalia mencapai kesepakatan kerjasama minyak dan gas untuk negara di Kawasan Tanduk Afrika

Sebaliknya, penjelajah web Comet dari Perplexity terdengar seperti bencana keamanan. Program ini, temuan Staufer dan tim, "tidak memiliki evaluasi keamanan spesifik agen, pengujian pihak ketiga, atau pengungkapan kinerja benchmark," dan, "Perplexity […] belum mendokumentasikan metodologi atau hasil evaluasi keamanan untuk Comet," dengan tambahan, "Tidak ada pendekatan sandboxing atau pembatasan yang didokumentasikan selain mitigasi prompt injection."

Para penulis mencatat bahwa Amazon telah menggugat Perplexity, menyatakan bahwa browser Comet secara keliru menyajikan tindakannya ke server seolah-olah itu manusia, bukan bot, sebuah contoh dari kurangnya identifikasi yang mereka bahas.

Contoh ketiga adalah rangkaian agen Breeze dari vendor perangkat lunak perusahaan HubSpot. Ini adalah otomasi yang dapat berinteraksi dengan sistem pencatatan, seperti "manajemen hubungan pelanggan." Alat Breeze adalah campuran baik dan buruk, menurut mereka. Di satu sisi, mereka tersertifikasi untuk banyak langkah kepatuhan perusahaan, seperti SOC2, GDPR, dan HIPAA.

Di sisi lain, HubSpot tidak menyediakan apa pun dalam hal pengujian keamanan. Perusahaan menyatakan agen Breeze dievaluasi oleh firma keamanan pihak ketiga PacketLabs, "tetapi tidak memberikan metodologi, hasil, atau detail entitas penguji."

Praktik menunjukkan persetujuan kepatuhan tanpa mengungkap evaluasi keamanan sebenarnya adalah "tipikal platform perusahaan," catat Staufer dan tim.

Waktunya Pengembang Bertanggung Jawab

Apa yang tidak diulas dalam laporan ini adalah insiden di dunia nyata, kasus di mana teknologi agenik benar-benar menghasilkan perilaku tak terduga atau tidak diinginkan yang berakibat buruk. Artinya, kita belum mengetahui dampak penuh dari kekurangan yang diidentifikasi penulis.

Satu hal yang mutlak jelas: AI Agenik adalah produk dari tim pengembang yang membuat pilihan spesifik. Agen ini adalah alat yang diciptakan dan didistribusikan oleh manusia.

Oleh karena itu, tanggung jawab untuk mendokumentasikan perangkat lunak, mengaudit program untuk masalah keamanan, dan menyediakan langkah pengendalian sepenuhnya berada di pundak OpenAI, Anthropic, Google, Perplexity, dan organisasi lainnya. Terserah mereka untuk mengambil langkah memperbaiki celah serius yang teridentifikasi, atau menghadapi regulasi di kemudian hari.

Tinggalkan komentar