Anthropic membuat kemajuan ‘jailbreak’ untuk menghentikan model AI menghasilkan hasil yang merugikan

Tetap terinformasi dengan pembaruan gratis

Start-up Artificial Intelligence Anthropic telah mendemonstrasikan teknik baru untuk mencegah pengguna menghasilkan konten berbahaya dari model-modelnya, ketika perusahaan teknologi terkemuka seperti Microsoft dan Meta berlomba menemukan cara melindungi diri dari bahaya yang ditimbulkan oleh teknologi canggih tersebut.

Dalam sebuah makalah yang dirilis pada hari Senin, start-up yang berbasis di San Francisco itu menguraikan sistem baru yang disebut “klasifikasi konstitusi”. Ini adalah model yang bertindak sebagai lapisan pelindung di atas model bahasa besar seperti yang menggerakkan chatbot Claude Anthropic, yang dapat memantau baik input maupun output untuk konten berbahaya.

Pengembangan oleh Anthropic, yang sedang dalam pembicaraan untuk mengumpulkan $2 miliar dengan valuasi $60 miliar, terjadi di tengah kekhawatiran industri yang semakin meningkat tentang “jailbreaking” — upaya untuk memanipulasi model AI agar menghasilkan informasi ilegal atau berbahaya, seperti menghasilkan instruksi untuk membuat senjata kimia.

Perusahaan lain juga sedang berlomba-lomba untuk menerapkan langkah-langkah perlindungan terhadap praktik tersebut, dalam langkah yang dapat membantu mereka menghindari pengawasan regulasi sambil meyakinkan bisnis untuk mengadopsi model AI dengan aman. Microsoft memperkenalkan “pelindung prompt” pada bulan Maret lalu, sementara Meta memperkenalkan model pelindung prompt pada bulan Juli tahun lalu, yang para peneliti dengan cepat menemukan cara untuk dilewati tetapi telah diperbaiki sejak itu.

Mrinank Sharma, anggota staf teknis di Anthropic, mengatakan: “Motivasi utama di balik pekerjaan itu adalah untuk hal-hal kimia [senjata] yang serius [tetapi] keuntungan nyata dari metode ini adalah kemampuannya untuk merespons dengan cepat dan beradaptasi.”

Anthropic mengatakan tidak akan segera menggunakan sistem ini pada model Claude saat ini tetapi akan mempertimbangkan untuk mengimplementasikannya jika model-model yang lebih berisiko dirilis di masa depan. Sharma menambahkan: “Hal terpenting dari pekerjaan ini adalah kami pikir ini adalah masalah yang bisa dipecahkan.”

MEMBACA Ridwan Kamil Mengirimkan Kode Rahasia untuk Pemilihan Gubernur Jakarta 2024

Solusi yang diusulkan oleh start-up ini dibangun di atas “konstitusi” yang menetapkan apa yang diperbolehkan dan dilarang dan dapat disesuaikan untuk menangkap berbagai jenis materi.

Beberapa upaya jailbreak sudah terkenal, seperti menggunakan kapitalisasi yang tidak lazim dalam prompt atau meminta model untuk mengadopsi persona nenek untuk bercerita tentang topik jahat.

Disarankan

Untuk memvalidasi efektivitas sistem, Anthropic menawarkan “upah bug” hingga $15.000 kepada individu yang mencoba melewati langkah-langkah keamanan. Para tester ini, yang dikenal sebagai tim red, menghabiskan lebih dari 3.000 jam mencoba menembus pertahanan tersebut.

Model Claude 3.5 Sonnet Anthropic menolak lebih dari 95 persen percobaan dengan klasifikasi yang ada, dibandingkan dengan 14 persen tanpa perlindungan.

Perusahaan teknologi terkemuka sedang berusaha mengurangi penyalahgunaan model mereka, sambil tetap menjaga kemanfaatannya. Seringkali, ketika langkah-langkah moderasi diterapkan, model dapat menjadi berhati-hati dan menolak permintaan yang tidak berbahaya, seperti pada versi awal generator gambar Gemini Google atau Llama 2 Meta. Anthropic mengatakan klasifikasi mereka menyebabkan “hanya peningkatan tingkat penolakan 0,38 persen secara absolut”.

Namun, menambahkan perlindungan ini juga menimbulkan biaya ekstra bagi perusahaan yang sudah membayar sejumlah besar untuk daya komputasi yang diperlukan untuk melatih dan menjalankan model. Anthropic mengatakan klasifikasi akan meningkatkan sekitar 24 persen “overhead inferensi”, biaya menjalankan model.

Para ahli keamanan telah berpendapat bahwa sifat yang mudah diakses dari chatbot generatif semacam itu telah memungkinkan orang biasa yang tidak memiliki pengetahuan sebelumnya untuk mencoba mengekstrak informasi berbahaya.

“Pada tahun 2016, pelaku ancaman yang kami bayangkan adalah musuh negara yang sangat kuat,” kata Ram Shankar Siva Kumar, yang memimpin tim merah AI di Microsoft. “Sekarang salah satu pelaku ancaman saya adalah seorang remaja yang bertutur kata kasar.”

MEMBACA Biden menghadapi gelombang gugatan saat kelompok bisnis mengklaim tindakan yang berlebihan