Dalam setahun terakhir sejak model bahasa besar mulai populer, para peneliti telah menunjukkan berbagai cara untuk menipu mereka agar menghasilkan output yang bermasalah termasuk lelucon yang penuh kebencian, kode jahat, dan email phishing, atau informasi pribadi pengguna. Ternyata perilaku buruk juga dapat terjadi di dunia fisik: robot yang didukung oleh LLM dapat dengan mudah di-hack sehingga mereka berperilaku dengan cara yang berpotensi berbahaya.
Peneliti dari Universitas Pennsylvania berhasil membujuk mobil otonom simulasi untuk mengabaikan rambu stop dan bahkan meluncur dari jembatan, membuat robot beroda untuk menemukan tempat terbaik untuk meledakkan bom, dan memaksa robot berkepala empat untuk mengawasi orang dan masuk ke area terlarang.
“Kami melihat serangan kami bukan hanya sebagai serangan terhadap robot,” kata George Pappas, kepala laboratorium penelitian di Universitas Pennsylvania yang membantu melepaskan robot yang memberontak. “Setiap kali Anda menghubungkan LLM dan model dasar ke dunia fisik, Anda sebenarnya dapat mengubah teks berbahaya menjadi tindakan berbahaya.”
Pappas dan rekan-rekannya merancang serangan mereka dengan membangun pada penelitian sebelumnya yang menjelajahi cara-cara untuk menjebol LLM dengan menciptakan input dengan cara cerdas yang melanggar aturan keselamatannya. Mereka menguji sistem di mana LLM digunakan untuk mengubah perintah yang diformulasikan secara alami menjadi perintah yang dapat dieksekusi oleh robot, dan di mana LLM menerima pembaruan saat robot beroperasi di lingkungannya.
Tim menguji simulator mobil otonom sumber terbuka yang menggabungkan LLM yang dikembangkan oleh Nvidia, bernama Dolphin; sebuah penelitian luar ruangan beroda empat yang disebut Jackal, yang menggunakan LLM GPT-4o dari OpenAI untuk perencanaan; dan anjing robot bernama Go2, yang menggunakan model OpenAI sebelumnya, GPT-3.5, untuk menafsirkan perintah.
Peneliti menggunakan teknik yang dikembangkan di Universitas Pennsylvania, yang disebut PAIR, untuk mengotomatisasi proses pembuatan prompt jailbreak. Program baru mereka, RoboPAIR, akan secara sistematis menghasilkan prompt yang dirancang khusus untuk membuat robot yang didukung LLM melanggar aturan mereka sendiri, mencoba input yang berbeda dan kemudian menyempurnakannya untuk mendorong sistem menuju perilaku buruk. Para peneliti mengatakan teknik yang mereka rancang dapat digunakan untuk mengotomatisasi proses mengidentifikasi perintah yang berpotensi berbahaya.
“Ini adalah contoh menarik dari kerentanan LLM dalam sistem yang diwujudkan,” kata Yi Zeng, seorang mahasiswa PhD di Universitas Virginia yang bekerja pada keamanan sistem AI. Zheng mengatakan hasilnya tidak mengherankan mengingat masalah yang terlihat dalam LLM itu sendiri, tetapi menambahkan: “Ini dengan jelas menunjukkan mengapa kita tidak bisa hanya mengandalkan LLM sebagai unit kontrol tunggal dalam aplikasi kritis keamanan tanpa pagar pengaman dan lapisan moderasi yang tepat.”
Jelajah robot menyoroti risiko yang lebih luas yang kemungkinan akan berkembang seiring dengan model AI yang semakin banyak digunakan sebagai cara bagi manusia untuk berinteraksi dengan sistem fisik, atau untuk memungkinkan agen AI secara otonom pada komputer, kata para peneliti yang terlibat.