OpenAI Klaim GPT-5 Lebih Sedang Halusinasi — Apa Kata Data?

OpenAI telah secara resmi meluncurkan GPT-5, dengan janji model AI yang lebih cepat dan canggih untuk menggerakkan ChatGPT.

Perusahaan AI ini membanggakan kinerja mutakhir dalam matematika, pemrograman, menulis, dan saran kesehatan. OpenAI dengan bangga menyatakan bahwa tingkat halusinasi GPT-5 telah menurun dibandingkan model sebelumnya.

Secara spesifik, GPT-5 membuat klaim salah 9,6 persen dari waktu, dibandingkan 12.9 persen untuk GPT-4o. Menurut kartu sistem GPT-5, tingkat halusinasi model baru ini 26% lebih rendah dari GPT-4o. Selain itu, GPT-5 memiliki 44% lebih sedikit respons yang mengandung “setidaknya satu kesalahan fakta besar”.

Meski ini perkembangan positif, artinya sekitar 1 dari 10 respons GPT-5 masih mungkin berisi halusinasi. Ini mengkhawatirkan, terutama karena OpenAI mempromosikan sektor kesehatan sebagai salah satu penggunaan utama model baru ini.

Bagaimana GPT-5 mengurangi halusinasi

Halusinasi adalah masalah pelik bagi peneliti AI. Model bahasa besar (LLM) dilatih untuk memprediksi kata berikutnya berdasarkan data masif yang diberikan. Ini berarti LLM terkadang bisa menghasilkan kalimat yang salah atau tidak masuk akal. Secara logika, seharusnya dengan data, pelatihan, dan komputasi yang lebih baik, tingkat halusinasi akan turun. Tapi peluncuran model penalaran o3 dan o4-mini oleh OpenAI justru menunjukkan tren yang membingungkan para peneliti: model-model ini berhalusinasi lebih sering dibanding model sebelumnya seperti o1, GPT-4o, dan GPT-4.5. Beberapa peneliti berargumen bahwa halusinasi adalah fitur bawaan LLM, bukan bug yang bisa diperbaiki.

Meski begitu, menurut kartu sistemnya, GPT-5 berhalusinasi lebih sedikit dibanding model sebelumnya. OpenAI menguji GPT-5 dan versi dengan kemampuan penalaran tambahan (GPT-5-thinking) terhadap model penalaran o3 dan model tradisional GPT-4o. Evaluasi tingkat halusinasi dilakukan dengan memberi akses web ke model. Secara umum, model lebih akurat ketika bisa merujuk data online dibanding hanya mengandalkan data pelatihan. Berikut tingkat halusinasi saat model diberi akses browsing:

MEMBACA Pemilik Baru TikTok di AS Hadapi Awal yang Sangat Berliku

Dalam kartu sistem, OpenAI juga menguji berbagai versi GPT-5 dengan prompt terbuka dan kompleks. GPT-5 dengan kemampuan penalaran menunjukkan halusinasi jauh lebih sedikit dibanding model penalaran o3 dan o4-mini. Model penalaran seharusnya lebih akurat karena menggunakan lebih banyak daya komputasi, sehingga tingginya halusinasi o3 dan o4-mini cukup membingungkan.

Secara keseluruhan, GPT-5 bekerja cukup baik saat terhubung ke internet. Tapi hasil evaluasi lain menunjukkan cerita berbeda. OpenAI menguji GPT-5 pada benchmark internal bernama Simple QA, kumpulan pertanyaan fakta dengan jawaban pendek untuk mengukur akurasi model. Tanpa akses web, tingkat halusinasi GPT-5 jauh lebih tinggi.

GPT-5-thinking sedikit lebih baik dari o3, sedangkan GPT-5 normal berhalusinasi 1% lebih tinggi dari o3 dan beberapa persen di bawah GPT-4o. Memang tingkat halusinasi dalam evaluasi Simple QA tinggi untuk semua model. Ini bukan kabar baik bagi pengguna tanpa akses pencarian web yang akan menghadapi risiko halusinasi lebih besar. Jadi jika menggunakan ChatGPT untuk hal penting, pastikan fitur pencarian web aktif. Atau, cari sendiri di web.

Pengguna cepat menemukan halusinasi GPT-5

Meski diklaim lebih akurat, salah satu demo memperlihatkan kesalahan memalukan. Beth Barnes, CEO lembaga penelitian AI METR, menemukan ketidakakuratan dalam demo GPT-5 yang menjelaskan cara kerja pesawat. GPT-5 menyebut miskonsepsi umum tentang Efek Bernoulli terkait aliran udara di sayap pesawat. Menurut sumber ahli, penjelasan GPT-5 tersebut salah.

Tweet ini tidak tersedia. Mungkin sedang dimuat atau telah dihapus.