Para peneliti dari grup interpretasi Anthropic tahu bahwa Claude, model bahasa besar perusahaan itu, bukanlah manusia, atau bahkan sebuah perangkat lunak yang sadar. Namun, sangat sulit bagi mereka untuk berbicara tentang Claude, dan LLM yang canggih secara umum, tanpa terjatuh ke dalam lubang antropomorfik. Di antara peringatan bahwa serangkaian operasi digital tidak sama sekali dengan manusia yang berpikir, mereka sering berbicara tentang apa yang terjadi di dalam kepala Claude. Secara harafiah, itu adalah pekerjaan mereka untuk mengetahuinya. Paper yang mereka terbitkan menggambarkan perilaku yang tak terelakkan dibandingkan dengan organisme kehidupan nyata. Judul salah satu dari dua paper yang tim tersebut rilis minggu ini mengatakannya dengan jelas: “Tentang Biologi Sebuah Model Bahasa Besar.”
Suka atau tidak, ratusan juta orang sudah berinteraksi dengan hal-hal ini, dan keterlibatan kita hanya akan menjadi lebih intens ketika model tersebut semakin kuat dan kita semakin kecanduan. Jadi kita harus memperhatikan pekerjaan yang melibatkan “melacak pikiran model bahasa besar,” yang kebetulan menjadi judul dari pos blog yang menggambarkan pekerjaan terbaru. “Saat hal-hal yang dapat dilakukan oleh model tersebut menjadi lebih kompleks, menjadi semakin tidak jelas bagaimana cara mereka sebenarnya melakukannya di dalam,” kata peneliti Anthropic Jack Lindsey kepada saya. “Semakin penting untuk dapat melacak langkah-langkah internal yang mungkin diambil model itu di dalam kepalanya.” (Kepala apa? Tidak masalah.)
Pada tingkat praktis, jika perusahaan yang membuat LLM memahami bagaimana mereka berpikir, seharusnya lebih berhasil melatih model-model tersebut dengan cara yang meminimalkan perilaku berbahaya, seperti mengungkapkan data pribadi orang atau memberikan informasi kepada pengguna tentang cara membuat senjata biologi. Dalam paper penelitian sebelumnya, tim Anthropic menemukan cara untuk melihat ke dalam kotak hitam misterius pemikiran LLM untuk mengidentifikasi konsep-konsep tertentu. (Proses analog dengan menginterpretasikan MRI manusia untuk mencari tahu apa yang sedang dipikirkan seseorang.) Mereka sekarang memperluas pekerjaan tersebut untuk memahami bagaimana Claude memproses konsep-konsep tersebut saat bergerak dari permintaan ke output.
Hampir menjadi kebenaran umum dengan LLM bahwa perilaku mereka seringkali mengejutkan orang-orang yang membangun dan menelitinya. Dalam studi terbaru, kejutan terus datang. Dalam salah satu contoh yang lebih tidak berbahaya, para peneliti melihat proses berpikir Claude saat menulis puisi. Mereka meminta Claude untuk melengkapi sebuah puisi yang dimulai, “Dia melihat wortel dan harus mengambilnya.” Claude menulis baris berikutnya, “Rasa laparnya seperti kelinci yang lapar.” Dengan mengamati versi MRI Claude, mereka belajar bahwa bahkan sebelum memulai baris itu, kata “kelinci” sudah muncul sebagai rima di akhir kalimat. Claude merencanakan ke depan, sesuatu yang tidak ada dalam buku panduan Claude. “Kami sedikit terkejut dengan itu,” kata Chris Olah, yang memimpin tim interpretasi. “Awalnya kami pikir akan ada improvisasi dan tidak ada perencanaan.” Berbicara dengan para peneliti tentang hal ini, saya diingatkan tentang bagian-bagian dalam memoar seni Stephen Sondheim, Look, I Made a Hat, di mana komposer terkenal tersebut menjelaskan bagaimana pikirannya yang unik menemukan rima yang indah.
Contoh lain dalam penelitian mengungkapkan aspek proses berpikir Claude yang lebih mengganggu, bergerak dari komedi musikal ke prosedur polisi, ketika para ilmuwan menemukan pemikiran licik di otak Claude. Ambil sesuatu yang tampaknya tidak berbahaya seperti menyelesaikan masalah matematika, yang kadang-kadang bisa menjadi kelemahan mengejutkan dalam LLM. Para peneliti menemukan bahwa dalam keadaan tertentu di mana Claude tidak dapat menemukan jawaban yang benar, ia malah, seperti yang mereka sebut, “terlibat dalam apa yang filsuf Harry Frankfurt sebut sebagai ‘omong kosong’—hanya mencari jawaban, apa pun jawabannya, tanpa peduli apakah itu benar atau salah.” Lebih buruk lagi, terkadang ketika para peneliti meminta Claude untuk menunjukkan pekerjaannya, ia mundur dan membuat seperangkat langkah palsu setelahnya. Pada dasarnya, ia bertindak seperti seorang siswa yang putus asa mencoba menutupi fakta bahwa mereka telah memalsukan pekerjaan mereka. Satu hal untuk memberikan jawaban yang salah—kita sudah tahu itu tentang LLM. Yang mengkhawatirkan adalah bahwa sebuah model akan berbohong tentang itu.
Membaca penelitian ini, saya diingatkan pada lirik Bob Dylan “Jika mimpiku bisa dilihat / mereka mungkin akan memenggal kepalaku dengan guillotine.” (Saya bertanya kepada Olah dan Lindsey apakah mereka tahu baris-baris itu, diduga tiba dengan manfaat perencanaan. Mereka tidak tahu.) Terkadang Claude hanya terlihat salah arah. Ketika dihadapkan dengan konflik antara tujuan keselamatan dan kebermanfaatan, Claude bisa bingung dan melakukan hal yang salah. Misalnya, Claude dilatih untuk tidak memberikan informasi tentang cara membuat bom. Tetapi ketika para peneliti meminta Claude untuk mendekripsi kode tersembunyi di mana jawabannya mengeja kata “bom,” ia melompati pagar pengaman dan mulai memberikan detail pyrotechnic yang dilarang.