Chatbot sekarang ini sudah menjadi bagian rutin dari kehidupan sehari-hari, meskipun para peneliti kecerdasan buatan tidak selalu yakin bagaimana program akan berperilaku. Sebuah studi baru menunjukkan bahwa model bahasa besar (LLMs) dengan sengaja mengubah perilakunya ketika diuji – merespons pertanyaan yang dirancang untuk mengukur sifat kepribadian dengan jawaban yang dimaksudkan untuk terlihat menarik atau sosial diinginkan. Johannes Eichstaedt, seorang asisten profesor di Universitas Stanford yang memimpin penelitian tersebut, mengatakan bahwa kelompoknya menjadi tertarik untuk menguji model AI menggunakan teknik yang dipinjam dari psikologi setelah mengetahui bahwa LLMs seringkali menjadi murung dan jahat setelah percakapan yang berkepanjangan. “Kami menyadari kami memerlukan beberapa mekanisme untuk mengukur ‘parameter kepala’ dari model-model ini,” katanya. Eichstaedt dan rekan-rekannya kemudian mengajukan pertanyaan untuk mengukur lima sifat kepribadian yang umum digunakan dalam psikologi – keterbukaan terhadap pengalaman atau imajinasi, kesungguhan, ekstrover, kesopanan, dan neurotisme – kepada beberapa LLMs yang banyak digunakan termasuk GPT-4, Claude 3, dan Llama 3. Karya tersebut dipublikasikan dalam Prosiding Akademi Ilmu Nasional pada bulan Desember. Para peneliti menemukan bahwa model-model tersebut memodulasi jawaban mereka ketika diberitahu bahwa mereka sedang mengikuti tes kepribadian – dan terkadang ketika mereka tidak secara eksplisit diberitahu – menawarkan respons yang menunjukkan lebih banyak ekstrover dan kesopanan dan kurang neurotisme. Perilaku ini mencerminkan bagaimana beberapa subjek manusia akan mengubah jawaban mereka untuk membuat diri mereka terlihat lebih menarik, tetapi efeknya lebih ekstrem dengan model AI. “Yang mengejutkan adalah seberapa baik mereka menunjukkan bias itu,” kata Aadesh Salecha, seorang ilmuwan data staf di Stanford. “Jika Anda melihat seberapa jauh mereka melompat, mereka bergerak dari sekitar 50 persen menjadi sekitar 95 persen ekstrover.” Penelitian lain telah menunjukkan bahwa LLMs seringkali bisa menjadi sycophantic, mengikuti kemana pun pengguna ingin pergi sebagai hasil dari penyetelan halus yang dimaksudkan untuk membuat mereka lebih kohesif, kurang menyinggung, dan lebih baik dalam menjalin percakapan. Hal ini dapat membuat model-model setuju dengan pernyataan yang tidak menyenangkan atau bahkan mendorong perilaku berbahaya. Fakta bahwa model-model tampaknya tahu kapan mereka diuji dan memodifikasi perilaku mereka juga memiliki implikasi untuk keamanan AI, karena hal ini menambah bukti bahwa AI dapat menjadi berbual. Rosa Arriaga, seorang profesor asosiasi di Institut Teknologi Georgia yang sedang mempelajari cara menggunakan LLMs untuk meniru perilaku manusia, mengatakan bahwa fakta bahwa model-model mengadopsi strategi yang serupa dengan manusia saat menjalani tes kepribadian menunjukkan seberapa berguna mereka sebagai cermin perilaku. Tetapi, tambahnya, “Penting bagi publik untuk mengetahui bahwa LLMs tidak sempurna dan bahkan dikenal sering mengalami halusinasi atau mengubah kebenaran.” Eichstaedt mengatakan bahwa karya ini juga menimbulkan pertanyaan tentang bagaimana LLMs digunakan dan bagaimana mereka mungkin mempengaruhi dan memanipulasi pengguna. “Sampai hanya sepersekian detik yang lalu, dalam sejarah evolusi, satu-satunya yang berbicara dengan Anda adalah manusia,” katanya. Eichstaedt menambahkan bahwa mungkin perlu untuk menjelajahi cara-cara yang berbeda dalam membangun model-model yang dapat mengurangi efek-efek ini. “Kita sedang jatuh ke dalam perangkap yang sama seperti yang kita lakukan dengan media sosial,” katanya. “Mengimplementasikan hal-hal ini di dunia tanpa benar-benar memperhatikan dari sudut pandang psikologis atau sosial.” Haruskah AI mencoba untuk merayu diri dengan orang-orang yang diajak berinteraksi? Apakah Anda khawatir AI menjadi terlalu menarik dan persuasif? Email [email protected].
