Dalam setahun terakhir, agen AI telah menjadi tren yang sangat populer. OpenAI, Google, dan Anthropic semuanya telah meluncurkan agen publik yang dirancang untuk menangani tugas-tugas multi-tahap yang diberikan oleh manusia. Bulan lalu, sebuah agen AI open-source bernama OpenClaw menggemparkan dunia maya berkat kemampuan otonomnya yang mengesankan (dan kekhawatiran keamanan yang besar). Namun, kita belum benar-benar memahami skala operasi agen AI, dan apakah semua pembicaraan tersebut sesuai dengan penerapan sebenarnya. MIT Computer Science and Artificial Intelligence Laboratory (CSAIL) berusaha memperbaiki hal ini dengan menerbitkan Indeks Agen AI 2025, yang memberikan gambaran pertama kita yang nyata tentang skala dan operasi agen AI di dunia nyata.
Para peneliti menemukan bahwa minat terhadap agen AI telah melonjak pesat dalam setahun terakhir. Makalah penelitian yang menyebutkan “Agen AI” atau “AI Agentik” pada tahun 2025 lebih dari dua kali lipat total dari tahun 2020 hingga 2024 digabungkan. Survei McKinsey juga menemukan bahwa 62% perusahaan melaporkan bahwa organisasi mereka setidaknya sedang bereksperimen dengan agen AI.
Dengan semua minat tersebut, para peneliti fokus pada 30 agen AI terkemuka di tiga kategori terpisah: opsi berbasis obrolan seperti ChatGPT Agent dan Claude Code; bot berbasis peramban seperti Perplexity Comet dan ChatGPT Atlas; serta opsi perusahaan seperti Microsoft 365 Copilot dan ServiceNow Agent. Meskipun para peneliti tidak memberikan angka pasti tentang berapa banyak agen AI yang telah diterapkan di seluruh web, mereka memberikan wawasan yang cukup besar tentang cara operasinya, yang sebagian besar berjalan tanpa pengamanan yang memadai.
Hanya setengah dari 30 agen AI yang diamati oleh MIT CSAIL yang mencakup kerangka kerja keamanan atau kepercayaan yang dipublikasikan, seperti Kebijakan Skala Bertanggung Jawab Anthropic, Kerangka Kesiapsiagaan OpenAI, atau Standar AI Bertanggung Jawab Microsoft. Satu dari tiga agen tidak memiliki dokumentasi kerangka keamanan sama sekali, dan lima dari 30 agen tidak memiliki standar kepatuhan. Hal ini mengkhawatirkan mengingat 13 dari 30 sistem yang ditinjau menunjukkan tingkat keagenan yang tinggi (frontier), artinya mereka dapat beroperasi sebagian besar tanpa pengawasan manusia dalam urutan tugas yang panjang. Agen peramban khususnya cenderung beroperasi dengan otonomi yang jauh lebih tinggi. Ini mencakup hal-hal seperti “Autobrowse” AI yang baru diluncurkan Google, yang dapat menyelesaikan tugas multi-tahap dengan menavigasi berbagai situs web dan menggunakan informasi pengguna untuk melakukan hal-hal seperti masuk ke situs atas nama Anda.
Salah satu masalah dengan membiarkan agen menjelajah secara bebas dan dengan sedikit pembatasan adalah bahwa aktivitas mereka hampir tidak dapat dibedakan dari perilaku manusia, dan mereka hampir tidak melakukan apa pun untuk menghilangkan kebingungan yang mungkin terjadi. Para peneliti menemukan bahwa 21 dari 30 agen tidak memberikan keterbukaan informasi kepada pengguna akhir atau pihak ketiga bahwa mereka adalah agen AI dan bukan pengguna manusia. Hal ini mengakibatkan sebagian besar aktivitas agen AI disalahartikan sebagai lalu lintas manusia. MIT menemukan bahwa hanya tujuh agen yang mempublikasikan string Pengguna-Agen (UA) dan rentang alamat IP yang stabil untuk verifikasi. Hampir sebanyak itu secara eksplisit menggunakan string UA mirip Chrome dan konteks IP residensial/lokal untuk membuat permintaan lalu lintas mereka terlihat lebih manusiawi, sehingga hampir mustahil bagi situs web untuk membedakan antara lalu lintas asli dan perilaku bot.
Bagi beberapa agen AI, itu sebenarnya adalah fitur yang dapat dipasarkan. Para peneliti menemukan bahwa BrowserUse, sebuah agen AI open-source, memasarkan diri kepada pengguna dengan mengklaim dapat melewati sistem anti-bot untuk menjelajah “seperti manusia”. Lebih dari setengah dari semua bot yang diuji tidak memberikan dokumentasi spesifik tentang bagaimana mereka menangani file robots.txt (file teks yang ditempatkan di direktori root situs web untuk menginstruksikan web crawler tentang bagaimana mereka dapat berinteraksi dengan situs), CAPTCHA yang dimaksudkan untuk mengautentikasi lalu lintas manusia, atau API situs. Perplexity bahkan berargumen bahwa agen yang bertindak atas nama pengguna seharusnya tidak tunduk pada pembatasan scraping karena mereka berfungsi “persis seperti asisten manusia”.
Faktanya bahwa agen-agen ini beroperasi di dunia nyata tanpa banyak perlindungan berarti ada ancaman nyata eksploitasi. Terdapat kekurangan standarisasi untuk evaluasi dan pengungkapan keamanan, sehingga banyak agen berpotensi rentan terhadap serangan seperti suntikan perintah (prompt injection), di mana seorang agen AI menangkap perintah berbahaya tersembunyi yang dapat membuatnya melanggar protokol keamanannya. Menurut MIT, sembilan dari 30 agen tidak memiliki dokumentasi tentang pagar pengaman terhadap tindakan yang berpotensi berbahaya. Hampir semua agen gagal mengungkapkan hasil pengujian keamanan internal, dan 23 dari 30 agen tidak menawarkan informasi pengujian pihak ketiga tentang keamanan.
Hanya empat agen—ChatGPT Agent, OpenAI Codex, Claude Code, dan Gemini 2.5—yang menyediakan kartu sistem spesifik-agen, artinya evaluasi keamanan disesuaikan dengan cara agen tersebut benar-benar beroperasi, bukan hanya model dasarnya. Namun, lab frontier seperti OpenAI dan Google, meskipun menawarkan lebih banyak dokumentasi tentang “risiko keselarasan eksistensial dan perilaku”, mereka kekurangan detail tentang jenis kerentanan keamanan yang mungkin timbul selama aktivitas sehari-hari—sebuah kebiasaan yang oleh para peneliti disebut sebagai “cuci keamanan (safety washing)”. Mereka mendeskripsikannya sebagai mempublikasikan kerangka kerja keamanan dan etika tingkat tinggi sementara hanya secara selektif mengungkapkan bukti empiris yang diperlukan untuk menilai risiko secara ketat.
Setidaknya ada beberapa momentum dalam menangani kekhawatiran yang diajukan oleh peneliti MIT. Pada Desember lalu, OpenAI dan Anthropic (diantara yang lain) bekerja sama, mengumumkan sebuah yayasan untuk menciptakan standar pengembangan bagi agen AI. Namun, Indeks Agen AI menunjukkan betapa lebarnya kesenjangan transparansi dalam operasi AI agentik. Agen AI sedang membanjiri web dan tempat kerja, berfungsi dengan jumlah otonomi yang mengejutkan dan pengawasan yang minimal. Hampir tidak ada indikasi saat ini bahwa aspek keamanan akan menyusul skala dalam waktu dekat.