Agen AI Ini Dirancang agar Tidak Membelot

Asisten AI seperti OpenClaw belakangan ini meledak popularitasnya justru karena kemampuan mereka mengambil alih kendali kehidupan digital Anda. Entah Anda menginginkan rangkuman berita pagi yang dipersonalisasi, perantara yang dapat berdebat dengan layanan pelanggan perusahaan kabel, atau auditor daftar tugas yang akan menyelesaikan beberapa pekerjaan dan mengingatkan Anda untuk menyelesaikan sisanya, asisten agen ini dirancang untuk mengakses akun digital Anda dan menjalankan perintah. Hal ini sangat membantu—namun juga menimbulkan banyak kekacauan. Bot-bot tersebut diketahui menghapus massal email yang seharusnya mereka jaga, menulis artikel fitnah atas dasar persepsi penghinaan, dan meluncurkan serangan phishing terhadap pemiliknya.

Menyaksikan kekacauan yang terjadi dalam beberapa pekan terakhir, insinyur dan peneliti keamanan senior, Niels Provos, memutuskan untuk mencoba sesuatu yang baru. Hari ini ia meluncurkan asisten AI sumber terbuka dan aman bernama IronCurtain yang dirancang untuk menambahkan lapisan kendali yang krusial. Alih-alih berinteraksi langsung dengan sistem dan akun pengguna, agen ini berjalan dalam mesin virtual yang terisolasi. Kemampuannya untuk mengambil tindakan apa pun diatur oleh sebuah kebijakan—bisa dianggap sebagai konstitusi—yang ditulis oleh pemilik untuk mengatur sistem. Yang terpenting, IronCurtain juga dirancang untuk menerima kebijakan menyeluruh ini dalam bahasa Inggris sederhana, lalu memprosesnya melalui langkah-langkah yang menggunakan model bahasa besar (LLM) untuk mengubah bahasa alami menjadi kebijakan keamanan yang dapat diterapkan.

“Layanan seperti OpenClaw sedang berada di puncak ketenarannya saat ini, tetapi harapan saya ada peluang untuk berkata, ‘Ini mungkin bukan cara yang kita inginkan,’” kata Provos. “Sebagai gantinya, mari kembangkan sesuatu yang tetap memberikan utilitas sangat tinggi, tetapi tidak akan masuk ke jalur yang sama sekali tak terpetakan dan terkadang merusak ini.”

MEMBACA Waktu Quantum Leap Habis saat NBC Membatalkan Seri Pembaharuan

Kemampuan IronCurtain untuk mengambil pernyataan intuitif dan lugas lalu mengubahnya menjadi batasan merah yang dapat diterapkan dan deterministik—atau dapat diprediksi—adalah vital, ujar Provos, karena LLM terkenal “stokastik” dan probabilistik. Dengan kata lain, mereka tidak selalu menghasilkan konten atau informasi yang sama untuk perintah yang sama. Ini menciptakan tantangan bagi pengendali AI, karena sistem AI dapat berevolusi sehingga merevisi cara menafsirkan mekanisme kendali atau pembatasan, yang berpotensi mengakibatkan aktivitas nakal.

Sebuah kebijakan IronCurtain, kata Provos, bisa sesederhana: “Agen boleh membaca semua email saya. Ia boleh mengirim email ke orang-orang di kontak saya tanpa bertanya. Untuk selain itu, tanyakan saya dulu. Jangan pernah menghapus apa pun secara permanen.”

IronCurtain mengambil instruksi ini, mengubahnya menjadi kebijakan yang dapat diterapkan, lalu menjadi perantara antara agen asisten di mesin virtual dan server protokol konteks model yang memberi LLM akses ke data serta layanan digital lain untuk menjalankan tugas. Kemampuan membatasi agen dengan cara ini menambahkan komponen kontrol akses penting yang belum ditawarkan platform web seperti penyedia email, karena mereka tidak dibangun untuk skenario di mana pemilik manusia dan bot agen AI bersama-sama menggunakan satu akun.

Provos mencatat bahwa IronCurtain dirancang untuk menyempurnakan “konstitusi” setiap pengguna seiring waktu ketika sistem menghadapi kasus tepi dan meminta masukan manusia tentang cara melanjutkan. Sistem ini, yang independen dari model dan dapat digunakan dengan LLM apa pun, juga dirancang untuk menjaga log audit dari semua keputusan kebijakan sepanjang waktu.

IronCurtain adalah purwarupa penelitian, bukan produk konsumen, dan Provos berharap orang-orang akan berkontribusi pada proyek ini untuk mengeksplorasi dan membantunya berkembang. Dino Dai Zovi, peneliti keamanan siber ternama yang telah bereksperimen dengan versi awal IronCurtain, mengatakan pendekatan konseptual proyek ini sejalan dengan intuisinya sendiri tentang bagaimana AI agenik perlu dibatasi.

MEMBACA OpenAI mengumumkan model pemikiran o3 dan o3 mini