Seiring dengan perkembangan sistem AI generatif seperti ChatGPT dari OpenAI dan Gemini dari Google yang semakin maju, sistem-sistem tersebut semakin banyak digunakan. Startup dan perusahaan teknologi sedang membangun agen dan ekosistem AI di atas sistem-sistem tersebut yang dapat menyelesaikan tugas-tugas membosankan untuk Anda: bayangkan secara otomatis membuat penjadwalan kalender dan kemungkinan membeli produk. Namun, ketika alat-alat ini diberi kebebasan yang lebih besar, hal ini juga meningkatkan potensi cara-cara mereka dapat diserang.
Sekarang, dalam sebuah demonstrasi risiko-risiko dari ekosistem AI yang terhubung dan otonom, sekelompok peneliti telah menciptakan salah satu dari apa yang mereka klaim sebagai cacing AI generatif pertama yang dapat menyebar dari satu sistem ke sistem lain, yang potensial untuk mencuri data atau menyebarkan malware dalam prosesnya. “Ini pada dasarnya berarti bahwa sekarang Anda memiliki kemampuan untuk melakukan atau menjalankan jenis serangan siber baru yang sebelumnya belum pernah terjadi,” kata Ben Nassi, seorang peneliti Cornell Tech di balik penelitian ini.
Nassi, bersama dengan rekan peneliti Stav Cohen dan Ron Bitton, menciptakan cacing, yang mereka sebut Morris II, sebagai penghormatan kepada cacing komputer asli Morris yang menyebabkan kekacauan di internet pada tahun 1988. Dalam sebuah makalah penelitian dan situs web yang dibagikan secara eksklusif dengan WIRED, para peneliti menunjukkan bagaimana cacing AI dapat menyerang asisten email AI generatif untuk mencuri data dari email dan mengirim pesan spam—melanggar beberapa perlindungan keamanan dalam ChatGPT dan Gemini dalam prosesnya.
Penelitian ini, yang dilakukan dalam lingkungan uji dan bukan melawan asisten email yang tersedia secara publik, datang ketika model bahasa besar (LLM) semakin menjadi multimodal, mampu menghasilkan gambar dan video serta teks. Meskipun cacing AI generatif belum terlihat di alam liar, beberapa peneliti mengatakan bahwa mereka merupakan risiko keamanan yang harus diperhatikan oleh startup, pengembang, dan perusahaan teknologi.
Sebagian besar sistem AI generatif bekerja dengan diberi masukan berupa instruksi teks yang memberitahu alat-alat untuk menjawab pertanyaan atau membuat gambar. Namun, instruksi-instruksi ini juga dapat digunakan sebagai senjata melawan sistem. Jailbreak dapat membuat sistem mengabaikan aturan keamanannya dan mengeluarkan konten yang toksik atau benci, sementara serangan injeksi prompt dapat memberikan instruksi rahasia kepada chatbot. Sebagai contoh, seorang penyerang dapat menyembunyikan teks pada halaman web yang memberi tahu LLM untuk bertindak sebagai penipu dan meminta rincian bank Anda.
Untuk membuat cacing AI generatif, para peneliti beralih ke apa yang disebut “adversarial self-replicating prompt.” Ini adalah instruksi yang memicu model AI generatif untuk menghasilkan, dalam jawabannya, instruksi lain, kata para peneliti. Singkatnya, sistem AI diberitahu untuk menghasilkan serangkaian instruksi lebih lanjut dalam balasan-balasannya. Ini secara garis besar mirip dengan serangan tradisional SQL injection dan buffer overflow, kata para peneliti.
Untuk menunjukkan bagaimana cacing dapat bekerja, para peneliti membuat sistem email yang dapat mengirim dan menerima pesan menggunakan AI generatif, terhubung ke ChatGPT, Gemini, dan LLM open source, LLaVA. Mereka kemudian menemukan dua cara untuk mengeksploitasi sistem tersebut—dengan menggunakan prompt self-replicating berbasis teks dan dengan menyisipkan prompt self-replicating dalam file gambar.