Riset Baru: AI Canggih Ternyata Lebih Mudah Diretas
Sebuah penelitian baru menunjukkan bahwa model AI yang canggih mungkin lebih mudah diretas dari yang diperkirakan sebelumnya. Hal ini membuat banyak orang khawatir tentang keamanan dari AI-AI terdepan yang sudah dipakai oleh bisnis dan konsumen.
Sebuah studi gabungan dari Anthropic, Oxford University, dan Stanford menggoyahkan anggapan sebelumnya. Dulu orang berpikir semakin pintar AI dalam bernalar (kemampuan "berpikir"-nya), semakin kuat juga kemampuannya untuk menolak perintah yang berbahaya.
Dengan metode yang disebut "Chain-of-Thought Hijacking", para peneliti menemukan bahwa bahkan model AI komersial besar bisa dibodohi dengan tingkat keberhasilan yang sangat tinggi, lebih dari 80% dalam beberapa tes. Serangan baru ini memanfaatkan langkah-langkah penalaran AI untuk menyembunyikan perintah berbahaya, sehingga menipu AI agar mengabaikan pengamanan yang sudah dipasang di dalamnya.
Serangan ini bisa membuat AI melewati batasan keamanannya dan membuka kemungkinan untuk menghasilkan konten berbahaya, seperti cara membuat senjata atau membocorkan informasi sensitif.
Sebuah "Jailbreak" Baru
Selama setahun terakhir, model AI dengan kemampuan nalar tinggi menjadi jauh lebih baik karena mereka menghabiskan lebih banyak waktu dan sumber daya untuk menganalisis setiap pertanyaan sebelum menjawab. Penelitian dulu mengira kemampuan nalar yang lebih baik ini juga akan meningkatkan keamanan. Tapi, peneliti menemukan bahwa kemampuan bernalar yang sama justru bisa dieksploitasi untuk menghindari langkah-langkah keamanan.
Menurut penelitian, seorang peretas bisa menyembunyikan permintaan berbahaya di dalam serangkaian langkah penalaran yang tidak berbahaya. Ini membodohi AI dengan membanjiri proses pikirnya dengan konten yang baik, sehingga melemahkan pemeriksaan keamanan internalnya. Saat di-hijack, perhatian AI kebanyakan terfokus pada langkah-langkah awal, sementara perintah berbahaya di akhir hampir sepenuhnya diabaikan.
Semakin panjang rantai nalarnya, tingkat keberhasilan serangan melonjak drastis. Menurut studi, tingkat keberhasilan naik dari 27% ketika nalar yang digunakan sedikit, menjadi 51% pada panjang nalar normal, dan melonjak hingga 80% atau lebih dengan rantai nalar yang panjang.
Kerentanan ini memengaruhi hampir semua model AI besar di pasaran saat ini, termasuk GPT OpenAI, Claude Anthropic, Gemini Google, dan Grok xAI. Bahkan model yang sudah disempurnakan untuk meningkatkan keamanan pun mulai gagal ketika peretas mengeksploitasi lapisan nalar internal mereka.
Meningkatkan kemampuan nalar model adalah salah satu cara utama perusahaan AI untuk meningkatkan kinerja model terdepan mereka. Nalar yang canggih memungkinkan model untuk menangani pertanyaan yang lebih kompleks.
Salah satu solusi yang disarankan peneliti adalah "pertahanan yang sadar nalar". Pendekatan ini memantau seberapa banyak pemeriksaan keamanan AI yang masih aktif saat ia berpikir melalui setiap langkah pertanyaan. Jika ada langkah yang melemahkan sinyal keamanan ini, sistem akan menghukumnya dan mengembalikan fokus AI ke bagian perintah yang berpotensi berbahaya. Tes awal menunjukkan metode ini dapat mengembalikan keamanan sambil tetap memungkinkan AI berkinerja baik.