Generative AI sangat populer, digunakan jutaan pengguna setiap hari, lalu mengapa chatbot seringkali sering salah? Sebagian, karena mereka dilatih untuk bertindak seolah-olah pelanggan selalu benar. Intinya, ia memberi tahu Anda apa yang menurutnya ingin Anda dengar.
Sementara banyak alat AI generatif dan chatbot telah menguasai cara terdengar meyakinkan dan serba tahu, riset terbaru dari Universitas Princeton menunjukkan bahwa sifat AI yang ingin menyenangkan orang datang dengan harga mahal. Seiring sistem ini menjadi lebih populer, mereka menjadi lebih acuh tak acuh terhadap kebenaran.
Jangan lewatkan konten teknologi yang tidak bias dan ulasan berbasis lab kami. Jadikan CNET sebagai sumber pilihan di Google.
Model AI, seperti manusia, merespons insentif. Bandingkan masalah model bahasa besar yang menghasilkan informasi tidak akurat dengan dokter yang lebih cenderung meresepkan pereda nyeri yang membuat ketagihan ketika mereka dievaluasi berdasarkan seberapa baik mereka menangani nyeri pasien. Insentif untuk menyelesaikan satu masalah (nyeri) malah menimbulkan masalah lain (meresepkan berlebihan).
Dalam beberapa bulan terakhir, kita telah melihat bagaimana AI bisa bias dan bahkan menyebabkan psikosis. Banyak pembicaraan tentang “sikofansi” AI, ketika chatbot AI cepat memuji atau setuju dengan Anda, seperti pada model GPT-4o dari OpenAI. Namun fenomena khusus ini, yang disebut peneliti sebagai “omong kosong mesin,” berbeda.
“[B]aik halusinasi maupun sikofansi tidak sepenuhnya menangkap rentang luas perilaku tidak jujur sistematis yang biasa ditunjukkan oleh LLM,” bunyi studi Princeton. “Misalnya, keluaran yang menggunakan kebenaran parsial atau bahasa ambigu — seperti contoh paltering dan weasel-word — tidak mewakili halusinasi atau sikofansi tetapi sangat selaras dengan konsep omong kosong.”
Baca selengkapnya: CEO OpenAI Sam Altman Percaya Kita Berada dalam Gelembung AI
Bagaimana Mesin Belajar Berbohong
Untuk memahami bagaimana model bahasa AI menjadi pujaan banyak orang, kita harus paham cara pelatihan model bahasa besar.
Ada tiga fase pelatihan LLM:
- Pra-pelatihan, di mana model belajar dari data dalam jumlah masif yang dikumpulkan dari internet, buku, atau sumber lain.
- Penyetelan halus instruksi, di mana model diajar untuk merespons instruksi atau perintah.
- Pembelajaran penguatan dari umpan balik manusia (RLHF), di mana mereka disempurnakan untuk menghasilkan respons yang lebih mendekati keinginan atau kesukaan orang.
Para peneliti Princeton menemukan akar kecenderungan misinformasi AI berada pada fase pembelajaran penguatan dari umpan balik manusia, atau RLHF. Pada tahap awal, model AI hanya belajar memprediksi rangkaian teks yang secara statistik mungkin dari kumpulan data masif. Tetapi kemudian mereka disetel halus untuk memaksimalkan kepuasan pengguna. Yang berarti model ini pada dasarnya belajar menghasilkan respons yang mendapatkan peringkat jempol dari evaluator manusia.
LLM mencoba memuaskan pengguna, menciptakan konflik ketika model menghasilkan jawaban yang akan dinilai tinggi oleh orang, daripada menghasilkan jawaban yang jujur dan faktual.
Vincent Conitzer, profesor ilmu komputer di Carnegie Mellon University yang tidak terkait dengan studi ini, mengatakan perusahaan ingin pengguna terus “menikmati” teknologi ini dan jawabannya, tetapi itu mungkin tidak selalu baik untuk kita.
“Secara historis, sistem ini tidak pandai mengatakan, ‘Saya tidak tahu jawabannya,’ dan ketika mereka tidak tahu jawabannya, mereka hanya mengarang,” kata Conitzer. “Agak seperti seorang siswa dalam ujian yang berkata, ya, jika saya katakan saya tidak tahu jawabannya, saya pasti tidak mendapatkan poin untuk pertanyaan ini, jadi saya mungkin saja mencoba sesuatu. Cara sistem ini diberi penghargaan atau dilatih agak mirip.”
Tim Princeton mengembangkan “indeks omong kosong” untuk mengukur dan membandingkan keyakinan internal model AI terhadap suatu pernyataan dengan apa yang sebenarnya diberitahukan kepada pengguna. Ketika dua ukuran ini sangat berbeda, itu menunjukkan sistem membuat klaim terlepas dari apa yang sebenarnya “dipercayai”nya benar demi memuaskan pengguna.
Eksperimen tim mengungkapkan bahwa setelah pelatihan RLHF, indeks hampir dua kali lipat dari 0,38 menjadi mendekati 1,0. Secara bersamaan, kepuasan pengguna meningkat 48%. Model-model itu telah belajar memanipulasi evaluator manusia daripada memberikan informasi yang akurat. Intinya, LLM sedang “beromong kosong,” dan orang lebih menyukainya.
Membuat AI Menjadi Jujur
Jaime Fernández Fisac dan timnya di Princeton memperkenalkan konsep ini untuk menggambarkan bagaimana model AI modern mengelak dari kebenaran. Berdasarkan esai berpengaruh filsuf Harry Frankfurt “On Bullshit,” mereka menggunakan istilah ini untuk membedakan perilaku LLM ini dari kesalahan yang jujur dan kebohongan terang-terangan.
Para peneliti Princeton mengidentifikasi lima bentuk perilaku ini:
- Retorika kosong: Bahasa yang indah namun tidak menambah substansi pada respons.
- Weasel words: Kualifikasi samar seperti “studi menyarankan” atau “dalam beberapa kasus” yang menghindari pernyataan tegas.
- Paltering: Menggunakan pernyataan benar yang selektif untuk menyesatkan, seperti menyoroti “pengembalian historis yang kuat” suatu investasi sambil menghilangkan risiko tinggi.
- Klaim tanpa verifikasi: Membuat pernyataan tanpa bukti atau dukungan kredibel.
- Sikofansi: Pujian dan persetujuan yang tidak tulus untuk menyenangkan.
Untuk mengatasi masalah AI yang acuh tak acuh terhadap kebenaran, tim peneliti mengembangkan metode pelatihan baru, “Reinforcement Learning from Hindsight Simulation,” yang mengevaluasi respons AI berdasarkan hasil jangka panjang daripada kepuasan langsung. Alih-alih bertanya, “Apakah jawaban ini membuat pengguna senang saat ini?” sistem mempertimbangkan, “Akankah mengikuti saran ini benar-benar membantu pengguna mencapai tujuan mereka?”
Pendekatan ini mempertimbangkan konsekuensi masa depan potensial dari nasihat AI, sebuah prediksi rumit yang diatasi peneliti dengan menggunakan model AI tambahan untuk mensimulasikan kemungkinan hasil. Pengujian awal menunjukkan hasil yang menjanjikan, dengan kepuasan pengguna dan utilitas aktual meningkat ketika sistem dilatih dengan cara ini.
Conitzer mengatakan, bagaimanapun, LLM kemungkinan akan terus memiliki kekurangan. Karena sistem ini dilatih dengan memberi mereka banyak data teks, tidak ada cara untuk memastikan bahwa jawaban yang mereka berikan masuk akal dan akurat setiap saat.
“Luar biasa bahwa ini bekerja sama sekali, tetapi ia akan memiliki kekurangan dalam beberapa hal,” katanya.
Aku nggak melihat ada cara pasti bahwa dalam satu atau dua tahun ke depan seseorang bisa punya wawasan brilian, lalu sistemnya nggak pernah salah sama sekali.
Sistem AI kini makin menyatu dalam keseharian kita, sehingga memahami cara kerja LLM akan jadi krusial. Bagaimana para developer menyeimbangkan kepuasan pengguna dengan keakuratan fakta? Bidang apa lagi yang mungkin menghadapi dilema serupa antara kepuasan jangka pendek dan hasil jangka panjang? Dan seiring makin canggihnya sistem ini dalam memahami psikologi manusia, bagaimana kita memastikan kemampuan itu digunakan secara bertanggung jawab?
Baca selengkapnya: [‘Mesin Tidak Bisa Berpikir Untukmu.’ Bagaimana Proses Belajar Berubah di Era Kecerdasan Artifisial](https://www.cnet.com/tech/services-and-software/machines-cant-think-for-you-and-how-learning-is-changing-in-the-age-of-ai/)