Agensi AI Semakin Canggih, Tetapi Transparansi Keamanannya Belum Mengikuti

Agen AI sedang sungguh-sungguh mencuri perhatian. Antara viralitas OpenClaw, Moltbook belakangan ini dan rencana OpenAI untuk membawa fitur agennya ke level lebih tinggi, tahun ini mungkin memang akan jadi tahunnya agen.

Mengapa? Ya, mereka bisa merencanakan, menulis kode, menjelajahi web, dan mengeksekusi tugas multi-tahap dengan sedikit atau tanpa pengawasan. Beberapa bahkan berjanji mengatur alur kerja Anda. Lainnya berkoordinasi dengan berbagai alat dan sistem di desktop Anda.

Dayatariknya jelas. Sistem-sistem ini tak hanya merespons. Mereka bertindak — untuk Anda dan atas nama Anda. Tetapi ketika para peneliti di balik Indeks Agen AI MIT mengatalogkan 67 sistem agenik yang telah diterapkan, mereka menemukan hal yang meresahkan.

Para pengembang bersemangat mendeskripsikan kemampuan agen mereka. Namun, mereka jauh kurang bersemangat untuk menjelaskan apakah agen-agen tersebut aman.

“Pengembang dan startup AI terkemuka semakin banyak menggelar sistem AI agenik yang dapat merencanakan dan mengeksekusi tugas kompleks dengan keterlibatan manusia terbatas,” tulis para peneliti dalam makalahnya. “Akan tetapi, saat ini belum ada kerangka terstruktur untuk mendokumentasikan … fitur keamanan sistem agenik.”

Kesenjangan itu tampak nyata dalam angka: Sekitar 70% dari agen yang terindeks menyediakan dokumentasi, dan hampir setengahnya memublikasikan kode. Tetapi hanya sekitar 19% yang mengungkapkan kebijakan keselamatan formal, dan kurang dari 10% yang melaporkan evaluasi keamanan eksternal.

Riset tersebut menegaskan bahwa meski pengembang cepat mempromosikan kemampuan dan penerapan praktis sistem agenik, mereka juga cepat dalam memberikan informasi terbatas tentang keamanan dan risiko. Hasilnya adalah transparansi yang tidak seimbang.

Apa yang Dihitung sebagai Agen AI

Para peneliti sengaja menetapkan kriteria inklusi, dan tidak setiap chatbot memenuhi syarat. Untuk dimasukkan, sebuah sistem harus beroperasi dengan tujuan yang tidak sepenuhnya ditentukan dan mengejar sasaran secara berkelanjutan. Sistem itu juga harus mengambil tindakan yang memengaruhi suatu lingkungan dengan mediasi manusia terbatas. Inilah sistem yang memutuskan langkah-langkah perantara sendiri. Mereka dapat memecah instruksi luas menjadi subtugas, menggunakan alat, merencanakan, menyelesaikan, dan mengulangi.

MEMBACA Obrolan dengan ChatGPT: Mode Suara GPT-5 Terdengar Semakin Mirip Manusia

Otonomi itulah yang membuat mereka kuat. Itu pula yang meningkatkan risikonya.

Ketika sebuah model hanya menghasilkan teks, kegagalannya biasanya terbatas pada satu keluaran itu saja. Ketika sebuah agen AI dapat mengakses berkas, mengirim email, melakukan pembelian, atau memodifikasi dokumen, kesalahan dan eksploitasi dapat menjadi merusak dan menyebar ke berbagai tahap. Namun, para peneliti menemukan bahwa sebagian besar pengembang tidak merinci secara publik bagaimana mereka menguji skenario-skenario tersebut.

Kemampuan Dipublikasikan, Pengaman Tidak

Pola paling mencolok dalam studi tersebut tidak tersembunyi di dalam tabel — pola itu berulang di sepanjang makalah.

Para pengembang nyaman membagikan demo, patokan kinerja, dan kegunaan agen AI ini, tetapi mereka jauh kurang konsisten dalam berbagi evaluasi keamanan, prosedur pengujian internal, atau audit risiko pihak ketiga.

Ketimpangan itu makin penting seiring agen beralih dari purwarupa menjadi aktor digital yang terintegrasi ke alur kerja nyata. Banyak sistem terindeks beroperasi di domain seperti rekayasa perangkat lunak dan penggunaan komputer — lingkungan yang sering melibatkan data sensitif dan kendali yang berarti.

Indeks Agen AI MIT tidak menyatakan bahwa AI agenik sepenuhnya tidak aman, tetapi indeks itu menunjukkan bahwa seiring otonomi meningkat, transparansi terstruktur tentang keamanan belum mengimbangi.

Teknologinya semakin cepat. Pengamannya, setidaknya yang terlihat publik, masih sulit dilihat.

Apa yang Dihitung sebagai Agen AI

Kemampuan Dipublikasikan, Pengaman Tidak

Tinggalkan komentar Batalkan balasan