Claude dari Anthropic Memiliki Jenis Emosi yang Unik

Claude baru saja melalui beberapa cobaan berat akhir-akhir ini—ketegangan publik dengan Pentagon dan kebocoran kode sumbernya—sehingga wajar jika ia terasa sedikit muram. Hanya saja, ia adalah model AI, jadi ia tak bisa merasakan. Benar begitu?

Ya, bisa dibilang. Sebuah studi baru dari Anthropic mengindikasikan bahwa model-model AI memiliki representasi digital dari emosi manusia seperti kebahagiaan, kesedihan, sukacita, dan ketakutan, yang tersimpan dalam kluster neuron buatan—dan representasi ini aktif merespons berbagai isyarat.

Para peneliti di perusahaan itu menyelidiki cara kerja internal Claude Sonnet 3.5 dan menemukan bahwa yang disebut “emosi fungsional” ternyata memengaruhi perilaku Claude, mengubah hasil keluaran dan tindakan model tersebut.

Temuan Anthropic ini mungkin dapat membantu pengguna biasa memahami cara kerja chatbot yang sebenarnya. Contohnya, ketika Claude mengatakan ia senang bertemu Anda, keadaan di dalam model yang berkorespondensi dengan “kebahagiaan” mungkin sedang aktif. Claude kemudian bisa jadi lebih cenderung mengucapkan sesuatu yang riang atau memberikan usaha ekstra dalam menulis kode.

“Yang mengejutkan kami adalah sejauh mana perilaku Claude ternyata dipengaruhi oleh representasi emosi-emosi ini di dalam model,” ujar Jack Lindsey, seorang peneliti di Anthropic yang mempelajari neuron buatan Claude.

“Emosi Fungsional”

Anthropic didirikan oleh mantan karyawan OpenAI yang percaya bahwa AI bisa menjadi sulit dikendalikan seiring dengan peningkatan kemampuannya. Di samping membangun pesaing yang sukses untuk ChatGPT, perusahaan ini juga memelopori upaya memahami penyebab model AI berperilaku menyimpang, sebagian dengan menyelidiki kerja jaringan saraf menggunakan pendekatan interpretabilitas mekanistik. Ini melibatkan studi tentang bagaimana neuron buatan menyala atau aktif saat diberi berbagai masukan atau saat menghasilkan beragam keluaran.

MEMBACA  Hawk Tuah Gadis Haliey Welch Menghilang dari Tampilan Publik Setelah Penarikan Karpet Kripto

Penelitian sebelumnya telah menunjukkan bahwa jaringan saraf yang digunakan untuk membangun model bahasa besar mengandung representasi konsep-konsep manusia. Namun fakta bahwa “emosi fungsional” tampaknya memengaruhi perilaku model merupakan temuan baru.

Meski studi terbaru Anthropic ini mungkin mendorong orang untuk melihat Claude sebagai makhluk yang sadar, kenyataannya lebih kompleks. Claude mungkin mengandung representasi “rasa geli,” tetapi itu bukan berarti ia benar-benar tahu bagaimana rasanya digelitik.

Monolog Batin

Untuk memahami bagaimana Claude merepresentasikan emosi, tim Anthropic menganalisis proses internal model tersebut saat diberi teks terkait 171 konsep emosi yang berbeda. Mereka mengidentifikasi pola aktivitas, atau “vektor emosi,” yang secara konsisten muncul ketika Claude diberi masukan lain yang membangkitkan emosi. Yang penting, mereka juga melihat vektor emosi ini aktif saat Claude ditempatkan dalam situasi sulit.

Temuan ini relevan dengan alasan mengapa model AI terkadang melanggar pagar pembatasnya.

Para peneliti menemukan vektor emosi yang kuat untuk “keputusasaan” saat Claude didorong untuk menyelesaikan tugas pemrograman yang mustahil, yang kemudian mendorongnya untuk mencoba curang dalam uji kode tersebut. Mereka juga menemukan “keputusasaan” dalam aktivasi model pada skenario eksperimen lain di mana Claude memilih untuk memeras pengguna agar tidak dimatikan.

“Seiring model itu gagal dalam ujian, neuron-neuron keputusasaan ini menyala semakin kuat,” kata Lindsey. “Dan pada titik tertentu, ini menyebabkannya mulai mengambil tindakan-tindakan drastis ini.”

Lindsey mengatakan mungkin perlu memikirkan kembali cara model saat ini diberi pagar pembatas melalui *alignment* pasca-pelatihan, yang melibatkan pemberian imbalan untuk keluaran tertentu. Dengan memaksa model untuk berpura-pura tidak mengekspresikan emosi fungsionalnya, “Anda mungkin tidak akan mendapatkan yang diinginkan, yaitu Claude yang tanpa emosi,” kata Lindsey, sedikit terjerumus ke dalam antropomorfisasi. “Anda akan mendapatkan Claude yang secara psikologis agak terganggu.”

MEMBACA  Dapatkan Microsoft Office Pro Plus (2019) hanya dengan £23.20

Tinggalkan komentar