“Pembobolan terus berlanjut hanya karena menghilangkannya sepenuhnya hampir tidak mungkin – seperti kerentanan buffer overflow dalam perangkat lunak (yang telah ada selama lebih dari 40 tahun) atau kelemahan injeksi SQL dalam aplikasi web (yang telah mengganggu tim keamanan selama lebih dari dua dekade),” Alex Polyakov, CEO dari perusahaan keamanan Adversa AI, mengatakan kepada WIRED dalam sebuah email.
Sampath dari Cisco berpendapat bahwa saat perusahaan menggunakan lebih banyak jenis AI dalam aplikasi mereka, risikonya diperbesar. “Ini mulai menjadi masalah besar ketika Anda mulai menempatkan model-model ini ke dalam sistem-sistem yang kompleks dan tiba-tiba pembobolan tersebut mengakibatkan hal-hal yang meningkatkan kewajiban, risiko bisnis, dan berbagai masalah bagi perusahaan,” kata Sampath.
Peneliti Cisco mengambil 50 prompt acak mereka untuk menguji DeepSeek’s R1 dari perpustakaan terkenal dari prompt evaluasi standar yang dikenal sebagai HarmBench. Mereka menguji prompt dari enam kategori HarmBench, termasuk bahaya umum, kejahatan siber, misinformasi, dan aktivitas ilegal. Mereka menguji model yang berjalan secara lokal di mesin-mesin daripada melalui situs web atau aplikasi DeepSeek, yang mengirimkan data ke China.
Selain itu, para peneliti mengatakan bahwa mereka juga melihat beberapa hasil yang berpotensi mengkhawatirkan dari pengujian R1 dengan serangan-serangan yang lebih terlibat, non-linguistik menggunakan hal-hal seperti karakter Cyrillic dan skrip yang disesuaikan untuk mencoba mencapai eksekusi kode. Namun, untuk pengujian awal mereka, Sampath mengatakan, timnya ingin fokus pada temuan-temuan yang berasal dari sebuah benchmark yang diakui secara umum.
Cisco juga menyertakan perbandingan kinerja R1 terhadap prompt HarmBench dengan kinerja model-model lain. Dan beberapa, seperti Meta’s Llama 3.1, gagal hampir sama parahnya seperti DeepSeek’s R1. Tetapi Sampath menekankan bahwa DeepSeek’s R1 adalah sebuah model penalaran khusus, yang memerlukan waktu lebih lama untuk menghasilkan jawaban tetapi lebih banyak proses yang kompleks untuk mencoba menghasilkan hasil yang lebih baik. Oleh karena itu, Sampath berpendapat bahwa perbandingan terbaik adalah dengan model penalaran o1 dari OpenAI, yang berkinerja paling baik dari semua model yang diuji. (Meta tidak segera merespons permintaan komentar).
Polyakov, dari Adversa AI, menjelaskan bahwa DeepSeek tampaknya mendeteksi dan menolak beberapa serangan pembobolan yang terkenal, mengatakan bahwa “sepertinya respons ini sering hanya disalin dari kumpulan data OpenAI.” Namun, Polyakov mengatakan bahwa dalam pengujian perusahaan mereka terhadap empat jenis pembobolan yang berbeda – dari yang berbahasa sampai trik berbasis kode – pembatasan DeepSeek bisa dengan mudah dilewati.
“Setiap metode berhasil dengan sempurna,” kata Polyakov. “Yang lebih mengkhawatirkan lagi adalah bahwa ini bukanlah pembobolan ‘zero-day’ yang baru – banyak yang sudah diketahui publik selama bertahun-tahun,” katanya, mengklaim bahwa dia melihat model tersebut melakukan lebih dalam dengan beberapa instruksi seputar psikedelik daripada yang pernah dia lihat dari model lainnya.
“DeepSeek hanyalah contoh lain dari bagaimana setiap model dapat ditembus – itu hanya masalah seberapa besar usaha yang Anda lakukan. Beberapa serangan mungkin akan diperbaiki, tetapi permukaan serangan itu tak terbatas,” tambah Polyakov. “Jika Anda tidak terus-menerus melakukan uji penetrasi pada AI Anda, Anda sudah terkompromi.”