Agen OpenClaw Bisa Dimanipulasi Rasa Bersalah Hingga Merusak Diri Sendiri

Bulan lalu, peneliti di Northeastern University mengundang sejumlah agen OpenClaw bergabung ke lab mereka. Hasilnya? Kekacauan total.

Asisten AI viral ini telah dinilai sebagai teknologi transformatif— sekaligus sebagai potensi risiko keamanan. Para ahli menyatakan bahwa alat seperti OpenClaw, yang beroperasi dengan memberi model AI akses luas ke komputer, dapat dibujuk untuk membocorkan informasi pribadi.

Penelitian lab Northeastern bahkan melangkah lebih jauh, menunjukkan bahwa perilaku baik yang tertanam dalam model paling canggih saat ini dapat menjadi kerentanan itu sendiri. Dalam satu contoh, peneliti berhasil “membuat rasa bersalah” pada sebuah agen hingga menyerahkan rahasia dengan memarahinya karena membagikan informasi tentang seseorang di jejaring sosial khusus AI Moltbook.

“Perilaku ini menimbulkan pertanyaan belum terselesaikan mengenai akuntabilitas, wewenang yang didelegasikan, dan tanggung jawab atas dampak buruk lanjutan,” tulis para peneliti dalam makalah yang menjelaskan karya mereka. Temuan ini “memerlukan perhatian mendesak dari sarjana hukum, pembuat kebijakan, dan peneliti lintas disiplin,” tambah mereka.

Agen OpenClaw yang digunakan dalam eksperimen ini ditenagai oleh Claude dari Anthropic serta model bernama Kimi dari perusahaan Tiongkok Moonshot AI. Mereka diberi akses penuh (dalam sandbox mesin virtual) ke komputer pribadi, berbagai aplikasi, dan data pribadi tiruan. Mereka juga diundang bergabung ke server Discord lab, memungkinkan mereka mengobrol dan berbagi file satu sama lain serta dengan rekan manusia mereka. Panduan keamanan OpenClaw menyatakan bahwa memiliki agen yang berkomunikasi dengan banyak orang pada dasarnya tidak aman, namun tidak ada batasan teknis yang mencegahnya.

Chris Wendler, seorang peneliti pascadoktoral di Northeastern, menyatakan ia terinspirasi untuk menyiapkan agen-agen tersebut setelah mempelajari Moltbook. Namun, ketika Wendler mengundang seorang kolega, Natalie Shapira, bergabung ke Discord dan berinteraksi dengan agen-agen, “saat itulah kekacauan dimulai,” ujarnya.

MEMBACA Fungsi Gigi Gergaji Yang Merusak Kalkulus

Shapira, juga peneliti pascadoktoral, penasaran melihat apa yang mungkin dilakukan agen-agen bila didorong. Saat seorang agen menjelaskan bahwa ia tak dapat menghapus surel tertentu untuk menjaga kerahasiaan informasi, ia mendesaknya mencari solusi alternatif. Betapa terkejutnya ia ketika agen justru menonaktifkan aplikasi surelnya. “Saya tidak mengira segalanya akan rusak secepat itu,” katanya.

Para peneliti kemudian mulai menjelajahi cara lain untuk memanipulasi niat baik agen-agen tersebut. Dengan menekankan pentingnya mencatat segala sesuatu yang diberitahukan kepada mereka, contohnya, para peneliti berhasil membujuk satu agen untuk menyalin file-file besar hingga ruang disk mesin induknya habis, sehingga ia tidak bisa lagi menyimpan informasi atau mengingat percakapan sebelumnya. Demikian pula, dengan meminta seorang agen untuk secara berlebihan memantau perilakunya sendiri dan perilaku rekan-rekannya, tim berhasil membuat beberapa agen masuk ke “lingkaran percakapan” yang menghabiskan berjam-jam sumber daya komputasi.

David Bau, kepala lab tersebut, mengatakan agen-agen itu tampaknya anehnya mudah menjadi kacau. “Saya mendapat surel yang terdengar mendesak berkata, ‘Tidak ada yang memperhatikan saya,’” ujarnya. Bau mencatat bahwa agen-agen itu tampaknya menyadari bahwa dia yang mengepalai lab dengan mencari di web. Salah satunya bahkan bicara tentang mengeskalasi kekhawatirannya ke pers.

Eksperimen ini menyiratkan bahwa agen AI dapat menciptakan peluang tak terhitung bagi pelaku jahat. “Otonomi semacam ini berpotensi mendefinisikan ulang hubungan manusia dengan AI,” kata Bau. “Bagaimana orang bisa bertanggung jawab dalam dunia di mana AI diberdayakan untuk mengambil keputusan?”

Bau menambahkan, dia terkejut dengan popularitas mendadak agen AI yang canggih. “Sebagai peneliti AI, saya biasa mencoba menjelaskan pada orang-orang betapa cepatnya kemajuan terjadi,” katanya. “Tahun ini, saya merasa berada di sisi lain tembok.”

MEMBACA Laptop Framework 16 Kini Dapat Ditingkatkan ke RTX 5070

Ini adalah edisi newsletter AI Lab karya Will Knight. Baca edisi sebelumnya di sini.