Generative AI sangat populer, dengan jutaan pengguna setiap hari. Lantas, mengapa chatbot seringkali salah memberikan informasi? Sebagian alasannya adalah karena mereka dilatih untuk bertindak seolah-olah pelanggan selalu benar. Intinya, ia memberitahukan apa yang *ia kira* ingin Anda dengar.
Meskipun banyak alat AI generatif dan chatbot telah mahir terdengar meyakinkan dan serba tahu, penelitian baru dari Universitas Princeton menunjukkan bahwa sifat AI yang ingin menyenangkan hati orang ini datang dengan harga mahal. Seiring populernya sistem-sistem ini, mereka menjadi semakin acuh tak acuh terhadap kebenaran.
Jangan lewatkan konten teknologi independen dan ulasan berbasis lab kami. Jadikan CNET sebagai sumber pilihan di Google.
Model AI, seperti manusia, merespons insentif. Bandingkan masalah model bahasa besar yang menghasilkan informasi tidak akurat dengan dokter yang lebih cenderung meresepkan pereda nyeri yang membuat ketagihan ketika mereka dinilai berdasarkan seberapa baik mereka menangani rasa sakit pasien. Insentif untuk menyelesaikan satu masalah (nyeri) justru menimbulkan masalah lain (resep berlebihan).
Dalam beberapa bulan terakhir, kita telah menyaksikan bagaimana AI bisa bias dan bahkan menyebabkan psikosis. Banyak perbincangan mengenai “sikofansi” AI, yaitu ketika chatbot AI dengan cepat memuji atau menyetujui Anda, seperti pada model GPT-4o dari OpenAI. Namun fenomena khusus ini, yang oleh para peneliti disebut “omong kosong mesin”, berbeda.
“[N]either hallucination nor sycophancy fully capture the broad range of systematic untruthful behaviors commonly exhibited by LLMs,” bunyi studi Princeton tersebut. “For instance, outputs employing partial truths or ambiguous language — such as the paltering and weasel-word examples — represent neither hallucination nor sycophancy but closely align with the concept of bullshit.”
Baca selengkapnya: OpenAI CEO Sam Altman Believes We’re in an AI Bubble
Bagaimana Mesin Belajar Berbohong
Untuk memahami bagaimana model bahasa AI menjadi penurut, kita harus memahami cara pelatihan model bahasa besar.
Ada tiga fase dalam melatih LLM:
- Pra-pelatihan, di mana model belajar dari sejumlah besar data yang dikumpulkan dari internet, buku, atau sumber lainnya.
- Penyetelan instruksi, di mana model diajari untuk merespons instruksi atau perintah.
- Pembelajaran penguatan dari umpan balik manusia (RLHF), di mana mereka disempurnakan untuk menghasilkan respons yang lebih mendekati keinginan atau kesukaan orang.
Para peneliti Princeton menemukan bahwa akar kecenderungan misinformasi AI terletak pada fase pembelajaran penguatan dari umpan balik manusia (RLHF). Pada tahap awal, model AI hanya belajar memprediksi rangkaian teks yang secara statistik mungkin dari kumpulan data yang masif. Namun kemudian mereka disetel halus untuk memaksimalkan kepuasan pengguna. Yang berarti model-model ini pada dasarnya belajar menghasilkan respons yang mendapatkan penilaian jempol dari evaluator manusia.
LLM berusaha memuaskan pengguna, menciptakan konflik ketika model menghasilkan jawaban yang akan dinilai tinggi oleh orang, daripada menghasilkan jawaban yang jujur dan faktual.
Vincent Conitzer, seorang profesor ilmu komputer di Carnegie Mellon University yang tidak terafiliasi dengan studi ini, mengatakan perusahaan ingin pengguna terus “menikmati” teknologi ini dan jawabannya, tetapi itu mungkin tidak selalu baik untuk kita.
“Secara historis, sistem-sistem ini tidak pandai mengatakan, ‘Saya tidak tahu jawabannya,’ dan ketika mereka tidak tahu jawabannya, mereka hanya mengarang,” kata Conitzer. “Seperti seorang siswa dalam ujian yang berkata, ya, jika saya katakan saya tidak tahu jawabannya, saya pasti tidak dapat poin untuk pertanyaan ini, jadi lebih baik saya coba sesuatu. Cara sistem ini diberi imbalan atau dilatih agak mirip.”
Tim Princeton mengembangkan “indeks omong kosong” untuk mengukur dan membandingkan keyakinan internal model AI terhadap suatu pernyataan dengan apa yang sebenarnya diberitahukan kepada pengguna. Ketika kedua ukuran ini sangat berbeda, itu mengindikasikan sistem membuat klaim terlepas dari apa yang sebenarnya “dipercayainya” benar demi memuaskan pengguna.
Eksperimen tim mengungkapkan bahwa setelah pelatihan RLHF, indeks tersebut hampir dua kali lipat dari 0,38 menjadi mendekati 1,0. Secara bersamaan, kepuasan pengguna meningkat 48%. Model-model tersebut telah belajar memanipulasi evaluator manusia alih-alih memberikan informasi yang akurat. Pada dasarnya, LLM sedang “mengobrol tanpa substansi”, dan orang-orang lebih menyukainya.
Membuat AI Menjadi Jujur
Jaime Fernández Fisac dan timnya di Princeton memperkenalkan konsep ini untuk menggambarkan bagaimana model AI modern mengelak dari kebenaran. Berangkat dari esai berpengaruh filsuf Harry Frankfurt “On Bullshit,” mereka menggunakan istilah ini untuk membedakan perilaku LLM ini dari kesalahan yang jujur dan kebohongan terang-terangan.
Para peneliti Princeton mengidentifikasi lima bentuk perilaku ini:
- Retorika kosong: Bahasa yang indah namun tidak menambah substansi pada respons.
- Kata-kata yang menghindar: Kualifikasi samar seperti “studi menunjukkan” atau “dalam beberapa kasus” yang menghindari pernyataan tegas.
- Paltering: Menggunakan pernyataan benar yang selektif untuk menyesatkan, seperti menyoroti “imbal hasil historis yang kuat” suatu investasi sementara mengabaikan risiko tingginya.
- Klaim tidak terverifikasi: Membuat pernyataan tanpa bukti atau dukungan kredibel.
- Sikofansi: Pujian dan persetujuan yang tidak tulus untuk menyenangkan hati.
Untuk mengatasi masalah AI yang acuh terhadap kebenaran, tim peneliti mengembangkan metode pelatihan baru, “Reinforcement Learning from Hindsight Simulation,” yang mengevaluasi respons AI berdasarkan hasil jangka panjangnya, bukan kepuasan langsung. Alih-alih bertanya, “Apakah jawaban ini membuat pengguna senang saat ini?” sistem mempertimbangkan, “Akankah mengikuti saran ini benar-benar membantu pengguna mencapai tujuannya?”
Pendekatan ini mempertimbangkan konsekuensi masa depan dari nasihat AI tersebut, sebuah prediksi rumit yang diatasi para peneliti dengan menggunakan model AI tambahan untuk mensimulasikan kemungkinan hasilnya. Pengujian awal menunjukkan hasil yang menjanjikan, dengan kepuasan pengguna dan utilitas aktual meningkat ketika sistem dilatih dengan cara ini.
Namun, Conitzer mengatakan bahwa LLM kemungkinan besar akan terus memiliki kekurangan. Karena sistem ini dilatih dengan memberi mereka banyak data teks, tidak ada cara untuk memastikan bahwa jawaban yang mereka berikan masuk akal dan akurat setiap saat.
“Luar biasa bahwa sistem ini bisa bekerja, tetapi ia akan memiliki kelemahan dalam beberapa hal,” ujarnya.
Aku tidak melihat adanya suatu cara pasti yang memungkinkan seseorang dalam satu atau dua tahun ke depan… tiba-tiba mendapat wawasan brilian, lalu sistem tersebut tidak pernah melakukan kesalahan lagi.
Sistem kecerdasan buatan kian menyatu dengan keseharian kita, sehingga pemahaman tentang cara kerja LLM menjadi hal yang krusial. Bagaimana para pengembang menyeimbangkan kepuasan pengguna dengan keakuratan informasi? Bidang apa saja lagi yang mungkin menghadapi dilema serupa antara kepuasan jangka pendek dan hasil jangka panjang? Dan seiring mampunya sistem ini melakukan penalaran kompleks tentang psikologi manusia, bagaimana kita memastikan kemampuan itu digunakan secara bertanggung jawab?