Penelitian Ungkap Perbedaan Persepsi Probabilitas: Chatbot ‘Kemungkinan’ 80% vs. Persepsi Manusia 65%

Ketika manusia bilang suatu kejadian “mungkin” atau “kemungkinan besar”, orang biasanya punya pemahaman yang sama, meski agak samar-samar. Tapi saat AI seperti ChatGPT pakai kata yang sama, itu tidak menilai peluang seperti cara kita, menurut saya dan rekan-rekan saya.

Kami baru saja terbitkan studi di jurnal NPJ Complexity. Riset ini menunjukkan bahwa meski AI pandai berbicara, mereka sering tidak selaras dengan manusia dalam menyampaikan ketidakpastian. Penelitian fokus pada kata-kata seperti “mungkin”, “kemungkinan besar”, dan “hampir pasti”.

Dengan membandingkan bagaimana AI dan manusia mengaitkan kata-kata ini dengan persentase angka, kami temukan perbedaan yang signifikan. AI setuju dengan manusia untuk kata ekstrem seperti “mustahil”, tapi sangat berbeda untuk kata seperti “mungkin”. Contohnya, AI mungkin gunakan kata “kemungkinan besar” untuk arti peluang 80%, sedangkan manusia menganggapnya hanya sekitar 65%.

Ini mungkin karena manusia menafsirkan kata seperti “kemungkinan besar” berdasarkan konteks dan pengalaman pribadi. Sementara AI mungkin hanya merata-ratakan penggunaan kata itu dari data latihannya, sehingga jadi berbeda dengan penafsiran manusia.

Studi kami juga menemukan bahwa AI peka terhadap bahasa bergender dan bahasa yang dipakai dalam perintah. Saat perintah ganti dari “dia” laki-laki ke perempuan, perkiraan peluang dari AI sering jadi lebih kaku, yang mencerminkan bias dalam data latihannya. Saat perintah berubah dari bahasa Inggris ke Mandarin, perkiraan peluang AI juga sering berubah, mungkin karena perbedaan cara ekspresi ketidakpastian dalam kedua bahasa.

Mengapa ini penting

Ketidakselarasan ini adalah tantangan mendasar untuk keamanan AI dan interaksi manusia-AI. Karena AI semakin dipakai di bidang penting seperti kesehatan, kebijakan pemerintah, dan laporan ilmiah, cara mereka menyampaikan risiko jadi masalah kepercayaan publik.

MEMBACA Tuntutan maksimal Israel tidak kemungkinan akan menghasilkan gencatan senjata dengan Hezbollah | Serangan Israel ke Berita Lebanon

Jika asisten AI yang bantu dokter menyebut efek samping sebagai “jarang terjadi”, tapi perhitungan internal AI untuk kata itu lebih tinggi dari tafsiran dokter, keputusan yang diambil bisa jadi salah.

Apa yang akan datang

Tujuan pengembangan AI ke depan adalah menciptakan model yang tidak hanya memprediksi kata berikutnya, tapi juga memahami bobot ketidakpastian yang mereka sampaikan. Peneliti menyerukan metrik konsistensi yang lebih kuat.

Dengan dunia di mana AI merangkum makalah ilmiah dan mengatur jadwal orang, memastikan bahwa “mungkin” artinya benar-benar “mungkin” adalah langkah vital agar sistem ini jadi mitra yang bisa diandalkan.