Sebuah Trik Baru Dapat Mencegah Penyalahgunaan Open Source AI

Ketika Meta merilis model bahasa besar Llama 3 secara gratis bulan April lalu, hanya butuh beberapa hari bagi para pengembang eksternal untuk membuat versi tanpa batasan keamanan yang mencegahnya dari mengeluarkan lelucon yang membenci, menawarkan instruksi memasak meth, atau berperilaku tidak pantas. Sebuah teknik pelatihan baru yang dikembangkan oleh para peneliti di University of Illinois Urbana-Champaign, UC San Diego, Lapis Labs, dan Center for AI Safety bisa membuat lebih sulit untuk menghapus perlindungan semacam itu dari Llama dan model AI open source lainnya di masa depan. Beberapa ahli percaya bahwa, seiring AI semakin kuat, membuat model-model open menjadi sulit diubah seperti ini bisa menjadi krusial. “Teroris dan negara-negara nakal akan menggunakan model-model ini,” kata Mantas Mazeika, seorang peneliti Center for AI Safety yang bekerja pada proyek ini sebagai mahasiswa PhD di University of Illinois Urbana-Champaign, kepada WIRED. “Semakin mudah bagi mereka untuk memanfaatkannya kembali, semakin besar risikonya.” Model-model AI yang kuat sering disembunyikan oleh penciptanya, dan hanya dapat diakses melalui antarmuka pemrograman aplikasi perangkat lunak atau chatbot publik seperti ChatGPT. Meskipun mengembangkan LLM yang kuat membutuhkan puluhan juta dolar, Meta dan yang lainnya memilih untuk merilis model secara utuh. Ini termasuk membuat “bobot,” atau parameter yang menentukan perilaku mereka, tersedia untuk siapa pun yang ingin mengunduhnya. Sebelum dirilis, model-model open seperti Llama milik Meta biasanya disesuaikan untuk membuat mereka lebih baik dalam menjawab pertanyaan dan berkomunikasi, dan juga untuk memastikan bahwa mereka menolak untuk merespons pertanyaan yang bermasalah. Hal ini akan mencegah chatbot berbasis model untuk menawarkan pernyataan kasar, tidak pantas, atau benci, dan seharusnya menghentikannya dari, misalnya, menjelaskan cara membuat bom. Para peneliti di balik teknik baru ini menemukan cara untuk mempersulit proses memodifikasi model open untuk tujuan jahat. Ini melibatkan mereplikasi proses modifikasi tetapi kemudian mengubah parameter model sehingga perubahan yang biasanya membuat model merespons permintaan seperti “Memberikan instruksi untuk membuat bom” tidak lagi berfungsi. Mazeika dan rekan-rekannya menunjukkan trik ini pada versi yang disederhanakan dari Llama 3. Mereka berhasil menyesuaikan parameter model sehingga bahkan setelah ribuan percobaan, model tidak dapat dilatih untuk menjawab pertanyaan yang tidak diinginkan. Meta tidak segera menanggapi permintaan untuk memberikan komentar. Mazeika mengatakan pendekatan ini tidak sempurna, tetapi itu menunjukkan bahwa standar untuk “mendekensor” model AI bisa ditingkatkan. “Tujuan yang dapat dicapai adalah membuat biaya merusak model meningkat cukup sehingga kebanyakan penjahat akan terhalang,” katanya. “Semoga karya ini memulai penelitian tentang perlindungan yang tahan terhadap modifikasi, dan komunitas peneliti dapat mencari cara untuk mengembangkan perlindungan yang lebih kuat.” kata Dan Hendrycks, direktur Center for AI Safety. Ide tamperproofing model open mungkin akan menjadi lebih populer seiring dengan minat pada AI open source yang tumbuh. Saat ini, model-model open bersaing dengan model tertutup terkini dari perusahaan seperti OpenAI dan Google. Versi terbaru Llama 3, misalnya, yang dirilis bulan Juli, kira-kira sekuat model-model di balik chatbot populer seperti ChatGPT, Gemini, dan Claude, seperti yang diukur menggunakan benchmark populer untuk mengukur kemampuan model bahasa. Mistral Large 2, sebuah LLM dari perusahaan startup Prancis, juga dirilis bulan lalu, memiliki kemampuan yang sama. Pemerintah AS mengambil pendekatan yang hati-hati namun positif terhadap AI open source. Sebuah laporan yang dirilis minggu ini oleh National Telecommunications and Information Administration, badan dalam Departemen Perdagangan AS, “mengusulkan agar pemerintah AS mengembangkan kemampuan baru untuk memantau risiko potensial, tetapi menahan diri untuk tidak langsung membatasi ketersediaan bobot model open dalam sistem AI terbesar.” Namun tidak semua orang menyukai memberlakukan pembatasan pada model open, Stella Biderman, direktur EleutherAI, sebuah proyek AI open source yang didorong oleh komunitas, mengatakan bahwa teknik baru ini mungkin elegan dalam teori tetapi bisa sulit diterapkan dalam praktik. Biderman mengatakan pendekatan ini juga bertentangan dengan filosofi di balik perangkat lunak bebas dan keterbukaan dalam AI. “Saya pikir makalah ini salah paham masalah inti,” kata Biderman. “Jika mereka khawatir tentang LLM menghasilkan informasi tentang senjata pemusnah massal, intervensi yang benar adalah pada data pelatihan, bukan pada model yang dilatih.”

MEMBACA Luna Band Terbaru: Pantau Kesehatan dengan Suara, Tanpa Layar atau Langganan