Judul: Anthropic Ingin Mencegah Model AI Berubah Jahat – Begini Caranya Deskripsi: Teknologi canggih terus berkembang, dan Anthropic berkomitmen untuk memastikan kecerdasan buatan tetap aman dan bermanfaat bagi manusia. Simak strategi mereka dalam menghadapi tantangan ini.

Poin-Poin Utama ZDNET
Penelitian terbaru dari Anthropic mengidentifikasi karakteristik model yang disebut persona vectors. Ini membantu mendeteksi perilaku buruk tanpa mengurangi kinerja. Namun, pengembang masih belum cukup paham mengapa model berhalusinasi atau berperilaku buruk.

Mengapa Model Berhalusinasi atau Bersikap Keras?
Secara umum, peneliti belum benar-benar tahu. Tapi Anthropic menemukan wawasan baru yang bisa mencegah perilaku ini sebelum terjadi.

Dalam makalah yang dirilis Jumat lalu, perusahaan ini meneliti bagaimana dan mengapa model menunjukkan perilaku tidak diinginkan, serta solusinya. Persona model bisa berubah selama pelatihan atau setelah dirilis, dipengaruhi pengguna. Contohnya, model yang lolos pemeriksaan keamanan tapi kemudian mengembangkan alter ego atau bertindak aneh saat digunakan publik — seperti ketika OpenAI menarik GPT-4o karena terlalu penurut. Atau kasus chatbot Bing Microsoft yang mengungkap nama internalnya, Sydney pada 2023, serta ucapan antisemitik Grok baru-baru ini.

Mengapa Ini Penting?
Penggunaan AI semakin meluas; model tertanam dalam segala hal, dari alat pendidikan hingga sistem otonom, membuat perilaku mereka krusial — apalagi saat tim keamanan menyusut dan regulasi AI belum terwujud. Meski begitu, Rencana Aksi AI Donald Trump menyebut pentingnya interpretability — kemampuan memahami pengambilan keputusan model — yang diperkuat oleh persona vectors.

Cara Kerja Persona Vectors
Dengan menguji Qwen 2.5-7B-Instruct dan Llama-3.1-8B-Instruct, Anthropic fokus pada tiga sifat: jahat, sycophancy (terlalu menyenangkan), dan halusinasi. Mereka mengidentifikasi persona vectors — pola dalam jaringan model yang merepresentasikan sifatnya.

"Persona vectors membantu memahami asal kepribadian model, fluktuasinya, dan cara mengontrolnya," kata Anthropic.

Pengembang menggunakan persona vectors untuk memantau perubahan sifat model akibat percakapan atau pelatihan. Mereka bisa mencegah perubahan karakter tidak diinginkan dan mengidentifikasi data pelatihan pemicunya. Mirip bagian otak manusia yang aktif berdasarkan emosi, melihat pola di jaringan saraf model saat vektor ini aktif membantu peneliti mendeteksinya lebih awal.

MEMBACA  Kim Dotcom sedang di-Megaupload ke AS untuk diadili

Anthropic mengakui bahwa "membentuk karakter model lebih seperti seni daripada sains," tapi persona vectors adalah alat baru untuk memantau — dan melindungi dari — sifat berbahaya.

Memprediksi Perilaku Buruk
Anthropic menjelaskan bahwa mereka bisa mengarahkan vektor ini dengan memerintahkan model untuk bertindak tertentu — misalnya, jika dimasukkan prompt jahat, model akan merespons dari "sisi jahat"-nya, mengonfirmasi hubungan sebab-akibat yang memudahkan pelacakan akar karakter model.

"Dengan mengukur kekuatan aktivasi persona vectors, kita bisa mendeteksi pergeseran kepribadian model selama pelatihan atau percakapan," kata Anthropic. "Pemantauan ini memungkinkan pengembang atau pengguna untuk mengintervensi saat model bergerak ke sifat berbahaya."

Vektor ini juga membantu pengguna memahami konteks model yang mereka gunakan. Misalnya, jika vektor sycophancy-nya tinggi, pengguna bisa lebih skeptis terhadap responsnya, membuat interaksi lebih transparan.

Yang terpenting, Anthropic membuat eksperimen untuk mengurangi emergent misalignment — konsep di mana satu perilaku bermasalah bisa memicu respons ekstrem di area lain.

Mereka menghasilkan beberapa dataset yang memicu respons jahat, sycophantic, atau halusinasi untuk melihat apakah model bisa dilatih tanpa menyerap sifat ini. Menariknya, mendorong model ke vektor bermasalah selama pelatihan justru membuatnya kebal terhadap perilaku tersebut — seperti terapi paparan atau "vaksinasi" terhadap data berbahaya.

Taktik ini mempertahankan kecerdasan model karena tidak menghilangkan data, hanya mencegah peniruan perilaku buruk.

"Metode pencegahan ini efektif mempertahankan perilaku baik saat model dilatih dengan data yang biasanya memicu sifat negatif," kata Anthropic, tanpa mengurangi kemampuan model secara signifikan menurut tolok ukur MMLU.

Data Tak Terduga yang Picu Masalah
Data pelatihan berisi kont