OpenAI mengatakan model terbarunya, o3 dan o4-mini, adalah yang paling kuat yang pernah ada. Namun, penelitian menunjukkan bahwa model juga mengalami halusinasi lebih banyak – setidaknya dua kali lipat dibandingkan model sebelumnya.
Selain itu: Cara menggunakan ChatGPT: Panduan untuk pemula tentang chatbot AI paling populer
Dalam kartu sistem, sebuah laporan yang menyertai setiap model AI baru, dan diterbitkan bersamaan dengan rilis minggu lalu, OpenAI melaporkan bahwa o4-mini kurang akurat dan mengalami halusinasi lebih banyak daripada o1 dan o3. Dengan menggunakan PersonQA, uji internal berdasarkan informasi yang tersedia untuk umum, perusahaan menemukan bahwa o4-mini mengalami halusinasi dalam 48% respons, tiga kali lipat dari tingkat o1.
Meskipun o4-mini lebih kecil, lebih murah, dan lebih cepat daripada o3, dan, oleh karena itu, tidak diharapkan dapat melampaui kinerjanya, o3 masih mengalami halusinasi dalam 33% respons, atau dua kali lipat dari tingkat o1. Dari tiga model, o3 mendapat skor terbaik dalam akurasi.
Selain itu: o1 OpenAI lebih sering berbohong daripada model AI utama lainnya. Mengapa itu penting
“o3 cenderung membuat klaim lebih banyak secara keseluruhan, mengarah pada klaim yang lebih akurat serta klaim yang lebih tidak akurat/halusinasi,” jelas laporan OpenAI. “Diperlukan penelitian lebih lanjut untuk memahami penyebab dari hasil ini.”
Halusinasi, yang merujuk pada klaim yang dibuat-buat, studi, dan bahkan URL, terus menghantui kemajuan terdepan dalam AI. Saat ini tidak ada solusi yang sempurna untuk mencegah atau mengidentifikasi mereka, meskipun OpenAI telah mencoba beberapa pendekatan.
Selain itu, pengecekan fakta adalah target yang bergerak, membuat sulit untuk menyematkan dan menskalakan. Pengecekan fakta melibatkan tingkat keterampilan kognitif manusia yang sebagian besar tidak dimiliki oleh AI, seperti akal sehat, pembedaan, dan kontekstualisasi. Akibatnya, sejauh mana model mengalami halusinasi sangat bergantung pada kualitas data pelatihan (dan akses ke internet untuk informasi terkini).
Meminimalkan informasi palsu dalam data pelatihan dapat mengurangi kemungkinan pernyataan yang tidak benar di masa depan. Namun, teknik ini tidak mencegah halusinasi, karena banyak pilihan kreatif chatbot AI masih belum sepenuhnya dipahami.
Secara keseluruhan, risiko halusinasi cenderung berkurang perlahan dengan setiap rilis model baru, itulah yang membuat skor o3 dan o4-mini agak tidak terduga. Meskipun o3 meningkat 12 poin persentase dibandingkan o1 dalam akurasi, kenyataan bahwa model mengalami halusinasi dua kali lipat menunjukkan bahwa akurasinya tidak tumbuh secara proporsional dengan kemampuannya.
Seperti rilis terbaru lainnya, o3 dan o4-mini adalah model penalaran, yang berarti mereka mengeksternalisasikan langkah-langkah yang mereka ambil untuk menginterpretasikan permintaan pengguna. Minggu lalu, laboratorium penelitian independen Transluce menerbitkan evaluasinya, yang menemukan bahwa o3 sering memalsukan tindakan yang tidak bisa dilakukannya sebagai respons terhadap permintaan, termasuk mengklaim menjalankan Python dalam lingkungan pemrograman, meskipun chatbot tidak memiliki kemampuan tersebut.
Apa yang lebih, model semakin bertahan ketika tertangkap. “[o3] lebih membenarkan output yang dihalusinasikan ketika ditanyai oleh pengguna, bahkan mengklaim bahwa ia menggunakan MacBook Pro eksternal untuk melakukan perhitungan dan menyalin output ke ChatGPT,” jelas laporan itu. Transluce menemukan bahwa klaim palsu tentang menjalankan kode ini lebih sering terjadi dalam model seri-o (o1, o3-mini, dan o3) daripada model seri GPT (4.1 dan 4o).
Hasil ini terutama membingungkan karena model penalaran memerlukan waktu lebih lama untuk memberikan jawaban yang lebih menyeluruh dan berkualitas tinggi. Bahkan, salah satu pendiri Transluce, Sarah Schwettmann, bahkan mengatakan kepada TechCrunch bahwa “tingkat halusinasi o3 mungkin membuatnya kurang berguna daripada seharusnya.”
Juga: Chatbot sedang menggiring berita – bahkan untuk pengguna berbayar
Laporan dari Transluce mengatakan: “Meskipun isu kebenaran dari pasca-pelatihan diketahui ada, mereka tidak sepenuhnya menjelaskan peningkatan tingkat halusinasi dalam model penalaran. Kami menduga bahwa isu-isu ini mungkin diperparah oleh pilihan desain khusus dalam model penalaran seri-o, seperti pembelajaran penguatan berbasis hasil dan penghilangan rangkaian pemikiran dari giliran sebelumnya.”
Minggu lalu, sumber di dalam OpenAI dan penguji pihak ketiga mengkonfirmasi bahwa perusahaan telah secara drastis meminimalkan pengujian keamanan untuk model-model baru, termasuk o3. Meskipun kartu sistem menunjukkan bahwa o3 dan o4-mini “kira-kira setara” dengan o1 dalam ketangguhan terhadap percobaan jailbreak (ketiganya mendapat skor antara 96% dan 100%), skor halusinasi ini menimbulkan pertanyaan tentang dampak yang tidak berhubungan dengan keamanan dari perubahan jadwal pengujian.
Tanggung jawab tetap pada pengguna untuk memeriksa fakta dari keluaran model AI apa pun. Strategi ini terlihat bijaksana saat menggunakan model penalaran generasi terbaru.