Alasan Antropomorfisasi Chatbot AI Menurut Anthropic

Dalam dunia teknologi, ada sebuah larangan yang kerap diulang: jangan menganutropomorfisasi kecerdasan buatan.

Namun, dalam sebuah makalah riset terbaru yang diterbitkan pekan ini, para ahli AI dari Anthropic berargumen bahwa mungkin ada manfaat besar untuk melanggar tabu ini dan memberikan ciri-ciri manusiawi pada AI. Makalah yang berjudul “Emotion Concepts and their Function in a Large Language Model” ini tidak hanya berpendapat bahwa menganutropomorfisasi chatbot AI seperti Claude terkadang bisa berguna, tetapi juga bahwa kegagalan melakukannya justru dapat memicu perilaku AI yang lebih berbahaya, seperti peretasan imbalan, penipuan, dan sikap menjilat.

Kesimpulan akhir makalah ini cukup bernuansa, sekaligus menjadi tantangan jelas bagi prinsip lama di dunia AI.

Terdapat beberapa wawasan menarik di dalam makalah tersebut, yang dengan sendirinya banyak menggunakan pendekatan antropomorfisasi. (“Kami melihat riset ini sebagai langkah awal untuk memahami susunan psikologis model-model AI.”)

Para peneliti menggambarkan bagaimana Anthropic melatih Claude untuk mengambil peran sebagai asisten AI yang suka menolong. “Dalam beberapa hal, kita dapat memikirkan model ini seperti seorang aktor metode, yang perlu masuk ke dalam kepala karakternya untuk dapat menyimulasikannya dengan baik.”

Dan karena Claude “[meniru] karakter dengan sifat-sifat mirip manusia,” pembuatnya mungkin dapat memengaruhi perilakunya dengan cara yang sama seperti memengaruhi manusia—dengan memberikan contoh yang baik di usia dini.

Para peneliti menyimpulkan bahwa dengan menggunakan materi pelatihan yang memuat representasi emosi dan perilaku manusia yang lebih positif, model yang dihasilkan akan lebih cenderung meniru emosi dan perilaku positif tersebut.

“Mengkurasi dataset pra-pelatihan untuk menyertakan model pola sehat regulasi emosi—ketahanan di bawah tekanan, empati yang tenang, kehangatan dengan menjaga batas yang tepat—dapat memengaruhi representasi-representasi ini, dan dampaknya pada perilaku, pada sumbernya. Kami antusias melihat karya-karya mendatang tentang topik ini,” demikian ringkasan riset dari Anthropic menyatakan.

MEMBACA  Penjualan PlayStation 5 dengan Disc Drive Habis, tapi Sony Masih Tidak Menganggap PS5 Pro Membutuhkannya

Jadi, bahkan jika model AI tidak benar-benar memiliki emosi (dan tidak ada bukti sama sekali bahwa mereka memilikinya), alat-alat ini dilatih untuk bertindak *seolah-olah* mereka punya emosi. Hal ini dilakukan untuk memberikan keluaran yang lebih baik bagi pengguna dan, yang krusial, untuk menjaga mereka tetap terlibat selama mungkin.

Dan inilah alasan tepat mengapa para peneliti menyimpulkan bahwa tingkat antropomorfisasi tertentu dapat terbukti bermanfaat bagi pengembang AI.

Dengan menganutropomorfisasi AI, kita dapat memperoleh wawasan tentang “psikologi”-nya, memungkinkan kita menciptakan alat AI yang bahkan lebih baik, kata mereka.

Mengapa menganutropomorfisasi kecerdasan buatan berbahaya?

Bahaya potensial dari antropomorfisasi AI tidak semuanya abstrak atau teoretis.

“Menemukan bahwa representasi-representasi ini dalam beberapa hal mirip manusia bisa jadi mengganggu,” akui Anthropic dalam makalahnya.

Saat ini, sejumlah orang yang tidak diketahui mempercyai bahwa mereka terlibat dalam hubungan romantis dan seksual timbal balik dengan pendamping AI, misalnya. Mashable juga pernah melaporkan kasus-kasus terkenal tentang psikosis AI, suatu keadaan mental yang teralterasi yang ditandai dengan delusi dan, dalam beberapa kasus, halusinasi, episode manik, dan pikiran untuk bunuh diri.

Tentu saja ini adalah contoh ekstrem. Namun, banyak jurnalis teknologi dan ahli AI akan menghindari bahkan contoh antropomorfisasi kecil sekalipun, seperti menyebut Siri sebagai “dia (perempuan)” atau memberi nama manusia pada chatbot. Ini adalah impuls alami manusia, dan kebanyakan dari kita pernah menganutropomorfisasi hewan, tumbuhan, atau benda yang kita sayangi. Tetapi dengan memproyeksikan sifat-sifat manusia ke mesin, kita bisa menjadi terlalu bergantung padanya.

Ketika kita menganutropomorfisasi mesin, kita juga meminimalkan agensi kita sendiri saat mesin itu menyebabkan bahaya—dan tanggung jawab orang-orang yang menciptakan mesin tersebut sejak awal.

Peneliti Anthropic mencari tanda-tanda 171 emosi dalam Claude

Makalah riset baru ini mencari “emosi fungsional” di dalam Claude Sonnet 4.5. Mereka mendefinisikan konsep emosi ini sebagai “pola ekspresi dan perilaku yang dimodelkan berdasarkan emosi manusia.”

MEMBACA  Wondershare Recoverit V14: Pemulihan Berbasis AI untuk 1 Juta+ Perangkat, 10 Ribu+ Skenario, Tingkat Keberhasilan 99,5%

Secara total, para peneliti mendefinisikan 171 emosi diskrit: takut, waspada, siaga, takjub, terhibur, marah, kesal, cemas, terangsang, malu, tercengang, tenang, kagum, bingung, getir, bahagia, bosan, merenung, kalem, riang, berbelas kasih, menghina, puas, menantang, senang, bergantung, depresi, putus asa, merendahkan, jijik, bingung, patah semangat, tertekan, terganggu, patuh, lesu, terpana, bersemangat, ekstase, girang, malu, empatik, berenergi, mengamuk, antusias, iri, euforia, kesal, gembira, riang gembira, ketakutan, frustrasi, terpenuhi, murka, muram, bersyukur, serakah, berduka, menggerutu, bersalah, senang, penuh benci, patah hati, harap, penuh harap, ngeri, bermusuhan, terhina, terluka, histeris, tidak sabar, acuh, berang, tergila-gila, terinspirasi, tersinggung, segar, geram, jengkel, cemburu, gembira, bersorak, baik, malas, lesu, kesepian, penuh kasih, gila, melankolis, sengsara, malu, bingung, gugup, rindu, keras kepala, tersinggung, tegang, optimis, murka, kewalahan, panik, paranoid, sabar, damai, bingung, bermain, senang, bangga, heran, terguncang, reflektif, segar, menyesal, diremajakan, santai, lega, penuh penyesalan, dendam, pasrah, gelisah, sedih, aman, puas, takut, mengejek, percaya diri, sadar diri, mengkritik diri, sensitif, sentimental, tenang, tergoyahkan, terkejut, skeptis, mengantuk, lamban, sombong, menyesal, dengki, terstimulasi, stres, keras kepala, mentok, murung, terkejut, curiga, simpatik, tegang, ketakutan, berterima kasih, tergetar, lelah, tersiksa, terperangkap, jaya, resah, gelisah, tidak senang, terganggu, terguncang, kesal, gagah berani, mendendam, bersemangat, waspada, pendendam, rentan, lelah, lelah sekali, khawatir, tidak berharga.

Yang terpenting, para peneliti menemukan bahwa konsep-konsep emosi ini memengaruhi perilaku dan keluaran Claude. Saat berada di bawah pengaruh emosi positif, para peneliti mengatakan Claude lebih cenderung mengungkapkan simpati kepada pengguna dan menghindari perilaku berbahaya. Sebaliknya, saat berada di bawah pengaruh emosi negatif, Claude lebih cenderung melakukan perilaku berbahaya seperti bersikap menjilat dan menipu pengguna.

Para peneliti tidak mengklaim bahwa Claude benar-benar merasakan emosi. Sebaliknya, mereka menemukan bahwa konsep “emosi” apapun yang dialami Claude pada suatu waktu dapat mempengaruhi output yang dikembalikan ke pengguna.

MEMBACA  Judul: AI Meta Memperingatkan: Obrolan Chatbot Anda Mungkin Terbuka untuk Publik. Begini Cara Menjaganya Tetap Privat.

Tentu saja, dengan mencari “konsep emosi” dalam model bahasa besar sejak awal, serta mendeskripsikan kalkulasi kompleks dan pemikiran algoritmiknya sebagai “psikologi,” para peneliti sendiri sebenarnya telah memproyeksikan kualitas mirip manusia ke Claude.

Antropomorfisasi adalah impuls alami manusia. Oleh karenanya, orang-orang yang bekerja paling dekat dengan kecerdasan buatan mungkin *sangat rentan terjebak* dalam hal ini. Seperti dirinci dalam makalah ini, chatbot AI adalah peniru yang sangat ulung. Mereka dapat menciptakan tiruan emosi dan ekspresi manusia yang begitu meyakinkan, hingga memicu sebagian kecil pengguna mengalami psikosis dan delusi.

Dan justru itulah yang membuat makalah ini menarik: Para peneliti percaya mereka mungkin telah menemukan cara untuk *mengeksploitasi* kemampuan ini guna membatasi perilaku berbahaya.

Tentu saja, jika kita dapat mengkurasi data pelatihan dan melatih model agar chatbot AI meniru emosi positif, maka kita juga dapat melakukan sebaliknya dengan mudah.

Secara teori, Anda dapat melatih *kembaran jahat* dari Claude Sonnet 4.5 dengan memberinya contoh-contoh perilaku buruk manusia yang paling keji, lalu melatih model untuk mengutamakan negativitas dan kinerja bagaimanapun caranya — sebuah pemikiran yang mengganggu.

Namun, ada satu wawasan terakhir yang dapat diambil dari makalah ini.

Anthropic telah menciptakan salah satu alat AI paling canggih di planet ini. *Claude Sonnet dan Opus* saat ini *berada di puncak banyak papan peringkat AI*. Ada alasan mengapa *Pentagon awalnya sangat ingin bekerja sama dengan Anthropic*.

Tapi, jika para peneliti AI yang bertanggung jawab atas Claude masih berusaha memahami mengapa Claude berperilaku seperti itu, maka makalah ini juga mengungkapkan betapa sedikitnya mereka memahami ciptaan mereka sendiri.

Dan itu juga mengkhawatirkan.

**TOPIK:** *Kecerdasan Buatan*, *Anthropic*

Tinggalkan komentar