OpenAI: Kerentanan Injeksi Perintah pada Peramban AI Mungkin Tak Pernah Teratasi Sepenuhnya Para Ahli Menyebut Risiko Ini sebagai “Fitur Bawaan, Bukan Cacat Sistem”

OpenAI bilang, beberapa cara serangan ke browser AI seperti ChatGPT Atlas mungkin akan tetap ada. Ini bikin pertanyaan, apakah agen AI bisa beroperasi dengan aman di internet terbuka.

Masalah utamanya adalah serangan bernama "prompt injection." Di sini, peretas sembunyikan perintah jahat di situs web, dokumen, atau email yang bisa tipu agen AI untuk melakukan hal berbahaya. Contoh, penyerang bisa sisipkan perintah tersembunyi di halaman web—mungkin dalam teks yang tidak kelihatan oleh mata manusia tapi terlihat sah oleh AI—yang bisa mengabaikan perintah pengguna dan suruh agen untuk bagikan email pengguna, atau ambil uang dari rekening bank.

Setelah peluncuran browser ChatGPT Atlas dari OpenAI di bulan Oktober, beberapa peneliti keamanan tunjukkan bagaimana beberapa kata tersembunyi di Google Doc atau tautan clipboard bisa manipulasi perilaku agen AI. Brave, perusahaan browser open-source yang sebelumnya ungkap kelemahan di browser Comet milik Perplexity, juga terbitkan penelitian yang peringatkan bahwa semua browser bertenaga AI rentan terhadap serangan seperti indirect prompt injection.

“Prompt injection, mirip seperti scam dan rekayasa sosial di web, kecil kemungkinannya untuk pernah ‘terselesaikan’ sepenuhnya,” tulis OpenAI dalam postingan blog hari Senin. Mereka menambahkan bahwa “mode agen” di ChatGPT Atlas “memperluas permukaan ancaman keamanan.”

OpenAI bilang tujuannya adalah agar pengguna “bisa percaya pada agen ChatGPT.” Kepala Petugas Keamanan Informasi Dane Stuckey menambahkan cara perusahaan berharap mencapainya adalah dengan “berinvestasi besar-besaran dalam *red teaming* otomatis, *reinforcement learning*, dan *rapid response loops* untuk tetap unggul dari lawan kami.”

“Kami optimis bahwa *rapid response loop* yang proaktif dan sangat responsif dapat terus mengurangi risiko di dunia nyata dari waktu ke waktu,” kata perusahaan itu.

MEMBACA Kanselir Austria mengundurkan diri saat upaya untuk mengecualikan sayap kanan jauh runtuh.

Lawan AI dengan AI

Pendekatan OpenAI untuk masalah ini adalah menggunakan penyerang bertenaga AI sendiri—pada dasarnya bot yang dilatih melalui *reinforcement learning* untuk bertingkah seperti peretas yang cari cara untuk sisipkan perintah jahat ke agen AI. Bot ini bisa uji serangan dalam simulasi, amati bagaimana AI target akan merespons, lalu perbaiki pendekatannya dan coba lagi berulang kali.

“Penyerang kami yang dilatih [*reinforcement learning*] bisa arahkan agen untuk menjalankan alur kerja berbahaya yang canggih dan *long-horizon* yang terjadi selama puluhan (atau bahkan ratusan) langkah,” tulis OpenAI. “Kami juga amati strategi serangan baru yang tidak muncul dalam kampanye *red teaming* manusia kami atau laporan eksternal.”

Tapi, beberapa ahli keamanan siber ragu pendekatan OpenAI bisa atasi masalah mendasar ini.

“Yang mengkhawatirkan saya adalah kita mencoba memodifikasi salah satu perangkat lunak konsumen yang paling sensitif keamanannya dengan teknologi yang masih probabilistik, buram, dan mudah diarahkan dengan cara halus,” kata Charlie Eriksen, peneliti keamanan di Aikido Security, kepada Fortune.

“*Red-teaming* dan pencarian kerentanan berbasis AI bisa tangkap kegagalan yang jelas, tapi itu tidak mengubah dinamika dasarnya. Sampai kita punya batasan yang lebih jelas tentang apa yang boleh dilakukan sistem ini dan instruksi siapa yang harus mereka dengar, wajar untuk meragukan bahwa pertukaran ini masuk akal untuk pengguna biasa saat ini,” katanya. “Saya pikir prompt injection akan tetap jadi masalah jangka panjang … Bahkan bisa dibilang ini adalah fitur, bukan bug.”

Permainan kucing dan tikus

Peneliti keamanan juga sebelumnya bilang ke Fortune bahwa meskipun banyak risiko keamanan siber pada dasarnya adalah permainan kucing dan tikus yang terus-menerus, akses mendalam yang dibutuhkan agen AI—seperti kata sandi pengguna dan izin untuk bertindak atas nama pengguna—menimbulkan peluang ancaman yang sangat rentan sehingga tidak jelas apakah keunggulan mereka sepadan dengan risikonya.

MEMBACA Perbarui iPhone Anda dan Aktifkan Perlindungan Perangkat yang Dicuri Segera. Ini Alasannya.

George Chalhoub, asisten profesor di UCL Interaction Centre, bilang risikonya parah karena prompt injection “meruntuhkan batas antara data dan instruksi,” berpotensi mengubah agen AI “dari alat bantu menjadi vektor serangan potensial terhadap pengguna” yang bisa ekstrak email, curi data pribadi, atau akses kata sandi.

“Itulah yang membuat browser AI pada dasarnya berisiko,” kata Eriksen. “Kami mendelegasikan wewenang ke sistem yang tidak dirancang dengan isolasi kuat atau model izin yang jelas. Browser tradisional perlakukan web sebagai tidak terpercaya secara default. Browser agenik kaburkan garis itu dengan mengizinkan konten membentuk perilaku, bukan hanya ditampilkan.”

OpenAI rekomendasikan pengguna untuk beri agen instruksi spesifik daripada memberikan akses luas dengan arahan samar seperti “ambil tindakan apa pun yang diperlukan.” Browser ini juga punya fitur keamanan tambahan seperti “mode tidak masuk log”— yang memungkinkan pengguna menggunakannya tanpa membagikan kata sandi—dan “Mode Perhatikan”—yang merupakan fitur keamanan yang mengharuskan pengguna mengonfirmasi dengan jelas tindakan sensitif seperti mengirim pesan atau melakukan pembayaran.

“Kebebasan yang luas mempermudah konten tersembunyi atau jahat untuk mempengaruhi agen, bahkan ketika pengaman ada,” kata OpenAI dalam blogpost tersebut.

Cerita ini awalnya ditampilkan di Fortune.com