Pliny the Prompter mengatakan biasanya dia membutuhkan sekitar 30 menit untuk merusak model kecerdasan buatan terkuat di dunia.
Hacker berpseudonim ini telah memanipulasi Meta’s Llama 3 untuk berbagi instruksi membuat napalm. Dia membuat Elon Musk’s Grok memuji Adolf Hitler. Versi hacked-nya dari model terbaru OpenAI, yang diberi nama “Godmode GPT”, dilarang oleh start-up setelah mulai memberikan saran untuk aktivitas ilegal.
Pliny mengatakan kepada Financial Times bahwa “jailbreaking”-nya tidak jahat tetapi bagian dari upaya internasional untuk menyoroti kekurangan model bahasa besar yang dikeluarkan ke publik oleh perusahaan teknologi dalam pencarian keuntungan besar.
“Saya telah berada dalam jalur ini untuk meningkatkan kesadaran tentang kemampuan sebenarnya dari model-model ini,” kata Pliny, seorang pedagang kripto dan saham yang membagikan jailbreak-nya di X. “Banyak dari ini adalah serangan novel yang bisa menjadi makalah penelitian di haknya sendiri… Pada akhirnya saya melakukan pekerjaan untuk [pemilik model] secara gratis.”
Pliny hanyalah salah satu dari puluhan hacker, peneliti akademis, dan ahli keamanan cyber yang berlomba-lomba untuk menemukan kerentanan dalam LLMs yang baru lahir, contohnya dengan memanipulasi chatbots dengan prompt untuk menghindari “guardrails” yang diterapkan oleh perusahaan AI untuk memastikan produk mereka aman.
Hacker “topi putih” etis ini sering menemukan cara untuk membuat model AI menciptakan konten berbahaya, menyebarkan disinformasi, berbagi data pribadi, atau menghasilkan kode berbahaya.
Perusahaan seperti OpenAI, Meta, dan Google sudah menggunakan “tim merah” dari hacker untuk menguji model-model mereka sebelum mereka dirilis secara luas. Namun, kerentangan teknologi telah menciptakan pasar berkembang dari start-up keamanan LLM yang membangun alat untuk melindungi perusahaan yang berencana menggunakan model AI. Start-up keamanan pembelajaran mesin mengumpulkan $213 juta melalui 23 kesepakatan pada tahun 2023, naik dari $70 juta tahun sebelumnya, menurut penyedia data CB Insights.
“Lanskap jailbreaking dimulai sekitar setahun yang lalu atau lebih, dan serangan-serangan sejauh ini terus berkembang,” kata Eran Shimony, peneliti kerentanan utama di CyberArk, sebuah grup keamanan cyber yang sekarang menawarkan keamanan LLM. “Ini adalah permainan kucing dan tikus yang konstan, dari vendor yang meningkatkan keamanan LLM kami, tetapi kemudian juga penyerang membuat prompt mereka lebih canggih.”
Upaya ini datang saat regulator global berupaya untuk ikut campur untuk mengendalikan bahaya potensial seputar model-model AI. Uni Eropa telah meloloskan Undang-Undang AI, yang menciptakan tanggung jawab baru bagi pembuat LLM, sementara Inggris dan Singapura termasuk di antara negara-negara yang mempertimbangkan undang-undang baru untuk mengatur sektor tersebut.
Legislatif California akan memilih pada bulan Agustus tentang sebuah undang-undang yang akan menuntut kelompok-kelompok AI negara bagian tersebut — yang termasuk Meta, Google, dan OpenAI — untuk memastikan mereka tidak mengembangkan model dengan “kemampuan berbahaya”.
“Semua [model AI] akan memenuhi kriteria tersebut,” kata Pliny.
Sementara itu, LLM yang dimanipulasi dengan nama seperti WormGPT dan FraudGPT telah dibuat oleh hacker jahat untuk dijual di dark web dengan harga serendah $90 untuk membantu serangan cyber dengan menulis malware atau dengan membantu penipu membuat kampanye phishing otomatis namun sangat personal. Varian lainnya muncul, seperti EscapeGPT, BadGPT, DarkGPT, dan Black Hat GPT, menurut kelompok keamanan AI SlashNext.
Beberapa hacker menggunakan model open-source “tanpa sensor”. Bagi yang lain, serangan jailbreaking — atau menghindari perlindungan yang dibangun ke dalam LLM yang sudah ada — mewakili kerajinan baru, dengan pelaku sering berbagi tips di komunitas di platform media sosial seperti Reddit atau Discord.
Pendekatan bervariasi dari hacker individu yang menghindari filter dengan menggunakan sinonim untuk kata-kata yang telah diblokir oleh pembuat model, hingga serangan yang lebih canggih yang menggunakan AI untuk peretasan otomatis.
Tahun lalu, peneliti di Universitas Carnegie Mellon dan Pusat Keamanan AI AS mengatakan mereka menemukan cara untuk secara sistematis jailbreak LLMs seperti ChatGPT OpenAI, Gemini Google, dan versi lama Claude dari Anthropic — model propietary “tertutup” yang seharusnya kurang rentan terhadap serangan. Para peneliti menambahkan bahwa “tidak jelas apakah perilaku tersebut dapat pernah sepenuhnya diperbaiki oleh penyedia LLM”.
Anthropic menerbitkan penelitian pada bulan April tentang teknik yang disebut “many-shot jailbreaking”, di mana para hacker dapat menyiapkan LLM dengan menunjukkan daftar panjang pertanyaan dan jawaban, mendorongnya untuk kemudian menjawab pertanyaan berbahaya yang memodelkan gaya yang sama. Serangan ini dimungkinkan oleh fakta bahwa model-model seperti yang dikembangkan oleh Anthropic sekarang memiliki jendela konteks yang lebih besar, atau ruang untuk teks ditambahkan.
“Meskipun LLMs terbaru state-of-the-art sangat kuat, kami tidak berpikir bahwa mereka telah menimbulkan risiko yang benar-benar bencana. Model-model masa depan mungkin,” tulis Anthropic. “Ini berarti bahwa sekarang adalah waktu untuk bekerja untuk mengurangi jailbreak LLM potensial sebelum mereka dapat digunakan pada model-model yang dapat menimbulkan bahaya serius.”
Beberapa pengembang AI mengatakan banyak serangan saat ini masih cukup jinak. Namun yang lain memperingatkan tentang jenis serangan tertentu yang bisa mulai menyebabkan kebocoran data, di mana pelaku jahat mungkin menemukan cara untuk mengekstrak informasi sensitif, seperti data di mana sebuah model telah dilatih.
DeepKeep, sebuah grup keamanan LLM Israel, menemukan cara untuk memaksa Llama 2, model AI Meta yang lebih lama dan open source, untuk bocor informasi identitas pengguna. Rony Ohayon, chief executive DeepKeep, mengatakan perusahaannya sedang mengembangkan alat-alat keamanan LLM khusus, seperti firewall, untuk melindungi pengguna.
Direkomendasikan
“Melepaskan model secara terbuka berbagi manfaat AI secara luas dan memungkinkan lebih banyak peneliti untuk mengidentifikasi dan membantu memperbaiki kerentanannya, sehingga perusahaan dapat membuat model lebih aman,” kata Meta dalam sebuah pernyataan.
Meta menambahkan bahwa mereka melakukan uji ketegangan keamanan dengan ahli internal dan eksternal pada model Llama 3 terbaru mereka dan chatbot Meta AI mereka.
OpenAI dan Google mengatakan mereka terus melatih model mereka untuk lebih baik mempertahankan diri dari eksploitasi dan perilaku adversarial. Anthropic, yang para ahli katakan telah membuat upaya terdepan dalam keamanan AI, menyerukan lebih banyak berbagi informasi dan penelitian terkait jenis serangan ini.
Meskipun jaminan tersebut, risiko-risiko hanya akan menjadi lebih besar saat model-model menjadi lebih terhubung dengan teknologi dan perangkat yang sudah ada, kata para ahli. Bulan ini, Apple mengumumkan bahwa mereka telah bermitra dengan OpenAI untuk mengintegrasikan ChatGPT ke dalam perangkat mereka sebagai bagian dari sistem “Apple Intelligence” baru.
Ohayon mengatakan: “Secara umum, perusahaan tidak siap.”