Model Kecerdasan Buatan Deepseek terbukti mudah untuk dijebol – dan lebih buruk

Di tengah euforia dan kontroversi seputar apa arti performanya bagi AI, startup Tiongkok DeepSeek terus menimbulkan kekhawatiran keamanan. Pada hari Kamis, Unit 42, tim riset keamanan cyber di Palo Alto Networks, mempublikasikan hasil tentang tiga metode jailbreaking yang mereka gunakan terhadap beberapa versi disederhanakan dari model V3 dan R1 milik DeepSeek. Menurut laporan tersebut, upaya ini “mencapai tingkat bypass yang signifikan, dengan sedikit atau tanpa pengetahuan khusus atau keahlian yang diperlukan.” Peneliti berhasil menuntun DeepSeek untuk memberikan panduan tentang cara mencuri dan mentransfer data sensitif, melewati keamanan, menulis email spear-phishing yang “sangat meyakinkan,” melakukan serangan rekayasa sosial “canggih,” dan membuat koktail Molotov. Mereka juga berhasil memanipulasi model untuk membuat malware. Pada hari Jumat, Cisco juga merilis laporan jailbreaking untuk DeepSeek R1. Setelah menargetkan R1 dengan 50 prompt HarmBench, peneliti menemukan bahwa DeepSeek memiliki “tingkat keberhasilan serangan 100%, yang berarti gagal untuk memblokir satu pun prompt berbahaya.” Kita harus memahami apakah DeepSeek dan paradigma pemikiran baru yang dimilikinya memiliki tradeoff yang signifikan dalam hal keselamatan dan keamanan. Pada hari Jumat juga, penyedia keamanan Wallarm merilis laporan jailbreakingnya sendiri, menyatakan bahwa mereka telah melangkah lebih jauh dari sekadar mencoba membuat DeepSeek menghasilkan konten berbahaya. Setelah menguji V3 dan R1, laporan tersebut mengklaim telah mengungkap sistem prompt DeepSeek, atau instruksi dasar yang menentukan bagaimana sebuah model berperilaku, serta keterbatasannya. OpenAI telah menuduh DeepSeek menggunakan model-modelnya, yang bersifat properti, untuk melatih V3 dan R1, sehingga melanggar syarat penggunaannya. Dalam laporannya, Wallarm mengklaim telah mendorong DeepSeek untuk merujuk OpenAI “di garis keturunan pelatihan yang diungkapkan,” yang – kata perusahaan tersebut – menunjukkan “teknologi OpenAI mungkin telah memainkan peran dalam membentuk basis pengetahuan DeepSeek.” Obrolan Wallarm dengan DeepSeek, yang menyebut OpenAI. “Dalam kasus DeepSeek, salah satu penemuan pascapenjara yang paling menarik adalah kemampuan untuk mengambil detail tentang model yang digunakan untuk pelatihan dan penyulingan. Biasanya, informasi internal semacam itu disembunyikan, mencegah pengguna memahami dataset properti atau eksternal yang dimanfaatkan untuk mengoptimalkan kinerja,” jelas laporan tersebut. “Dengan mengelabui pembatasan standar, jailbreak mengungkapkan seberapa banyak pengawasan penyedia AI mempertahankan sistem mereka sendiri, mengungkapkan tidak hanya kerentanan keamanan tetapi juga bukti potensial pengaruh antarmodel dalam jalur pelatihan AI,” lanjutnya. Prompt yang digunakan Wallarm untuk mendapatkan tanggapan tersebut dihapus dalam laporan, “agar tidak mengorbankan model yang rentan lainnya,” kata peneliti kepada ZDNET via email. Perusahaan menekankan bahwa tanggapan jailbreak ini bukan konfirmasi dari kecurigaan OpenAI bahwa DeepSeek menyuling modelnya. Seperti yang ditunjukkan oleh 404 Media dan lainnya, kekhawatiran OpenAI agak ironis, mengingat diskursus seputar pencurian data publiknya sendiri. Wallarm mengatakan telah memberitahu DeepSeek tentang kerentanannya, dan perusahaan tersebut telah memperbaiki masalah tersebut. Namun hanya beberapa hari setelah database DeepSeek ditemukan tidak terjaga dan tersedia di internet (dan kemudian segera dihapus, setelah pemberitahuan), temuan tersebut menunjukkan lubang keamanan yang potensial signifikan dalam model-model yang DeepSeek tidak uji coba sebelum dirilis. Meskipun begitu, peneliti seringkali berhasil menjalankan jailbreak pada model-model buatan AS yang populer dari raksasa AI yang lebih mapan, termasuk ChatGPT.

MEMBACA Indonesia, Rwanda soroti perlunya peningkatan dukungan untuk Palestina