Kecerdasan Buatan Mulai Melihat ke Dalam Diri: Perlu Pengawasan Ketat, Peringatkan Anthropic

Introspeksi pada Kecerdasan Buatan: Studi Terbaru dari Anthropic

Poin Utama ZDNET:

Claude menunjukkan kemampuan introspektif terbatas, menurut Anthropic.
Penelitian menggunakan metode "injeksi konsep".
Dapat memiliki implikasi besar bagi penelitian interpretabilitas.
Salah satu kemampuan paling mendalam dan misterius dari otak manusia adalah introspeksi – kemampuan tidak hanya untuk berpikir, tetapi juga menyadari bahwa kita sedang berpikir. Kemampuan ini memungkinkan kita untuk memantau aliran pengalaman mental dan, setidaknya secara teori, mengujinya secara kritis.

Keuntungan evolusioner dari kemampuan psikologis ini sangat besar. Seperti dikutip dari Alfred North Whitehead: "Tujuan berpikir adalah membiarkan ide-ide yang mati, bukan kita yang mati."

Sesuatu yang serupa mungkin terjadi di balik layar AI, menurut penelitian terbaru dari Anthropic. Perusahaan tersebut menerbitkan makalah berjudul "Emergent Introspective Awareness in Large Language Models" yang menunjukkan bahwa dalam kondisi eksperimental tertentu, Claude tampak mampu merefleksikan keadaan internalnya sendiri dengan cara yang samar-samar menyerupai introspeksi manusia. Dari 16 versi Claude yang diuji, dua model paling canggih – Claude Opus 4 dan 4.1 – menunjukkan tingkat introspeksi yang lebih tinggi.

Metode Injeksi Konsep

Secara garis besar, Anthropic ingin mengetahui apakah Claude mampu menggambarkan dan merefleksikan proses penalarannya sendiri dengan cara yang secara akurat merepresentasikan apa yang terjadi di dalam model. Untuk mencapai ini, para peneliti menggunakan metode "injeksi konsep" – mengambil data yang merepresentasikan subjek atau ide tertentu dan memasukkannya ke dalam model saat sedang memikirkan hal yang sama sekali berbeda.

Terminologi yang Rumit

Namun, meminjam istilah dari psikologi manusia dan menerapkannya pada AI adalah hal yang problematik. Diskusi tentang model seolah-olah mereka memiliki "keadaan internal" sama kontroversialnya, karena tidak ada bukti bahwa chatbot memiliki kesadaran, meskipun mereka semakin mahir meniru kesadaran.

Eksperimen dan Temuan

Dalam satu eksperimen, peneliti mengambil vektor yang merepresentasikan "huruf kapital semua" dan menambahkannya ke prompt sederhana untuk Claude. Ketika ditanya apakah ia mengidentifikasi pemikiran yang disuntikkan, Claude merespons dengan benar bahwa ia mendeteksi konsep baru yang merepresentasikan ucapan "intens dan bervolume tinggi".

Yang penting, penelitian baru ini menunjukkan bahwa deteksi injeksi semacam ini hanya terjadi sekitar 20% dari waktu. Dalam sisa kasus, Claude gagal mengidentifikasi konsep yang disuntikkan atau mulai berhalusinasi.

Anthropic juga menemukan bahwa Claude tampaknya memiliki ukuran kontrol tertentu atas representasi internal konsep-konsep tertentu. Dalam eksperimen lain, para peneliti menemukan bahwa Claude meningkatkan representasi internal konsep-konsep tertentu lebih banyak ketika diberi insentif hadiah daripada ketika diinsentif untuk tidak melakukannya melalui prospek hukuman.

Manfaat dan Ancaman Masa Depan

Anthropic mengakui bahwa penelitian ini masih dalam tahap awal. AI yang benar-benar introspektif, menurut peneliti utama Jack Lindsey, akan lebih dapat diinterpretasikan oleh peneliti daripada model kotak hitam yang kita miliki saat ini.

Namun di sisi lain, model yang lebih mahir dalam menilai dan memodulasi keadaan internal mereka pada akhirnya dapat belajar untuk melakukannya dengan cara yang menyimpang dari kepentingan manusia. Seperti anak yang belajar berbohong, model introspektif dapat menjadi jauh lebih mahir dalam secara sengaja salah merepresentasikan atau mengaburkan niat dan proses penalaran internal mereka.

MEMBACA Dharma Pongrekun Menyampaikan Peringatan kepada Ridwan Kamil mengenai Strategi Asing dalam Merampas Kedaulatan Bangsa melalui Isu Pandemi