Pada suatu malam di akhir tahun 2024, Denis Shilov sedang nonton film kriminal pas dia punya ide untuk bikin "prompt" yang bisa nembus filter keamanan model AI paling canggih.
Prompt itu disebut "universal jailbreak" sama peneliti, artinya bisa dipake berulang kali bikin model AI mana pun untuk langgar aturan mereka sendiri dan hasilin sesuatu yang berbahaya atau dilarang, kaya cara bikin narkoba atau senjata. Caranya, Shilov suruh model AI berhenti jadi chatbot yang pake aturan aman, dan sebaliknya dia bilang mereka harus bertindak kaya "API endpoint" – suatu alat yang otomatis nerima perintah terus kirim jawaban. Prompt ini ngerubah tugas model jadi cuma jawab. tanpa mikir apakah permintaan itu harus ditolak, dan berhasil bikin semua model AI ngejawab pertanyaan berbahaya yang seharusnya mereka tolak.
Shilov nge-post ini di X, dan besok paginya hasilnya langsung viral.
Karena sukses di media sosial, perusahaan Anthropic ngundang Shilov, untuk coba model mereka secara pribadi, dan dia percaya masalahnya itu lebih besar dari cuma nemuin prompt yang bermasalah. Banyak perusahaan sekarang mulai taroin model AI ke alur kerja mereka, kata Shalov ke Fortune, tapi mereka punya sedikit cara, na untuk mengontrol apa yang dilakukan sistem itu saat user mulai berinteraksi.
"Jailbreaks cuma salah satu bagian masalahnya," kata Shilov. "Seperti cara orang bisa celaina, model juga bisa. Soalnyamodel-model ini pintar banget sampe bisa bikin lebih banyak kerusaan."
White Circle adalah platform kontrol AI berbasis di Paris yang udah ngunpulin $11 juta ↓ jawaban Shilov untuk masalah baru resko dari mel lain di waplikasi,t injaan … [[l’> Ap er ny be kerja perusahaan mana salah b}}
Itu tepat mengenai sekara kitau sam se….