Kecerdasan Buatan adalah Kotak Hitam. Anthropic Menemukan Cara untuk Melihat ke Dalamnya

Tahun lalu, tim mulai bereksperimen dengan model kecil yang hanya menggunakan satu lapisan neuron. (LLM canggih memiliki puluhan lapisan.) Harapannya adalah bahwa dalam pengaturan yang paling sederhana mereka bisa menemukan pola yang menunjukkan fitur. Mereka menjalankan sejumlah eksperimen tanpa hasil. “Kami mencoba berbagai hal, dan tidak ada yang berhasil. Sepertinya seperti tumpukan sampah acak,” kata Tom Henighan, anggota staf teknis Anthropic. Kemudian sebuah percobaan yang diberi nama “Johnny” – setiap eksperimen diberi nama acak – mulai mengaitkan pola saraf dengan konsep yang muncul dalam outputnya.
“Chris melihatnya, dan dia seperti, ‘Astaga. Ini terlihat hebat,’” kata Henighan, yang juga terkejut. “Saya melihatnya, dan seperti, ‘Oh, wow, tunggu, apakah ini berhasil?’”
Tiba-tiba para peneliti dapat mengidentifikasi fitur-fitur yang dienkripsi oleh sekelompok neuron. Mereka bisa melihat ke dalam kotak hitam. Henighan mengatakan bahwa ia mengidentifikasi lima fitur pertama yang dilihatnya. Satu kelompok neuron menunjukkan teks Rusia. Yang lain terkait dengan fungsi matematika dalam bahasa pemrograman Python. Dan seterusnya.
Setelah mereka menunjukkan bahwa mereka bisa mengidentifikasi fitur-fitur dalam model kecil, para peneliti mulai melakukan tugas yang lebih sulit untuk mendekripsi LLM ukuran penuh di alam liar. Mereka menggunakan Claude Sonnet, versi kekuatan menengah dari tiga model saat ini dari Anthropic. Itu juga berhasil. Satu fitur yang menonjol bagi mereka terkait dengan Jembatan Golden Gate. Mereka memetakan kumpulan neuron yang, ketika dinyalakan bersama, menunjukkan bahwa Claude “berpikir” tentang struktur besar yang menghubungkan San Francisco ke Marin County. Lebih dari itu, ketika kumpulan neuron serupa dinyalakan, mereka membangkitkan subjek yang berdekatan dengan Jembatan Golden Gate: Alcatraz, gubernur California Gavin Newsom, dan film Hitchcock Vertigo, yang berlatar di San Francisco. Secara keseluruhan tim mengidentifikasi jutaan fitur – semacam Batu Rosetta untuk mendekripsi jaringan saraf Claude. Banyak fitur terkait dengan keamanan, termasuk “mendekati seseorang dengan motif terselubung,” “diskusi tentang perang biologis,” dan “plot jahat untuk menguasai dunia.”
Tim Anthropic kemudian melangkah ke langkah berikutnya, untuk melihat apakah mereka bisa menggunakan informasi itu untuk mengubah perilaku Claude. Mereka mulai memanipulasi jaringan saraf untuk meningkatkan atau mengurangi konsep tertentu – semacam operasi otak AI, dengan potensi untuk membuat LLM lebih aman dan meningkatkan kekuatan mereka di bidang yang dipilih. “Kita katakan kita memiliki papan fitur ini. Kami menjalankan model, salah satunya menyala, dan kami melihat, ‘Oh, itu memikirkan Jembatan Golden Gate,’” kata Shan Carter, seorang ilmuwan Anthropic di tim tersebut. “Jadi sekarang, kita berpikir, bagaimana jika kita pasang dial ke semua ini? Dan bagaimana jika kita memutar dial itu?”
Sejauh ini, jawaban atas pertanyaan itu tampaknya sangat penting untuk memutar dial dengan benar. Dengan menekan fitur-fitur itu, Anthropic mengatakan, model dapat menghasilkan program komputer yang lebih aman dan mengurangi bias. Misalnya, tim menemukan beberapa fitur yang mewakili praktik berbahaya, seperti kode komputer yang tidak aman, email penipuan, dan instruksi untuk membuat produk berbahaya.

MEMBACA Petunjuk dan jawaban untuk Hambatan Hari Ini tanggal 23 Desember