Pada Google I/O, Kecerdasan Buatan yang Tidak Pernah Salah Persepsi.

Tahun ini, Google I/O 2025 memiliki satu fokus: Kecerdasan buatan. Kami sudah membahas semua berita terbesar yang muncul dari konferensi pengembang tahunan tersebut: alat pembuatan video AI baru bernama Flow. Sebuah rencana langganan AI Ultra seharga $250. Banyak perubahan baru untuk Gemini. Fitur mencoba pakaian virtual. Dan yang kritis, peluncuran alat pencarian AI Mode untuk semua pengguna di Amerika Serikat. Namun, selama hampir dua jam pemimpin Google berbicara tentang AI, satu kata yang tidak kami dengar adalah “halusinasi”.
Halusinasi tetap menjadi salah satu masalah paling sulit dan mengkhawatirkan dengan model AI. Istilah ini merujuk pada fakta dan ketidakakuratan yang dibuat-buat oleh model bahasa besar-besar “halusinasi” dalam balasannya. Dan menurut metrik sendiri dari merek-merek AI besar, halusinasi semakin memburuk – dengan beberapa model halusinasi lebih dari 40 persen dari waktu. Tetapi jika Anda menonton Google I/O 2025, Anda tidak akan tahu masalah ini ada. Anda akan berpikir model seperti Gemini tidak pernah halusinasi; Anda pasti akan terkejut melihat peringatan yang ditambahkan ke setiap Gambaran AI Google. (“Respon AI mungkin termasuk kesalahan”.)
Hal yang paling dekat dengan Google mengakui masalah halusinasi datang selama segmen presentasi tentang Mode AI dan kemampuan Pencarian Mendalam Gemini. Model tersebut akan memeriksa pekerjaannya sendiri sebelum memberikan jawaban, kami diberitahu – tetapi tanpa detail lebih lanjut tentang proses ini, itu terdengar lebih seperti buta memimpin buta daripada pemeriksaan fakta yang sebenarnya. Bagi para skeptis AI, tingkat keyakinan yang dimiliki Silicon Valley dalam alat-alat ini tampak terpisah dari hasil yang sebenarnya. Pengguna nyata memperhatikan ketika alat AI gagal dalam tugas-tugas sederhana seperti menghitung, mengecek ejaan, atau menjawab pertanyaan seperti “Apakah air akan membeku pada 27 derajat Fahrenheit?”
Google dengan antusias mengingatkan penonton bahwa model AI terbarunya, Gemini 2.5 Pro, berada di puncak banyak papan peringkat AI. Tetapi ketika datang ke kebenaran dan kemampuan menjawab pertanyaan sederhana, chatbot AI dinilai berdasarkan kurva. Gemini 2.5 Pro adalah model AI paling cerdas milik Google (menurut Google), namun ia hanya mencetak 52,9 persen pada tes benchmarking Fungsionalitas SimpleQA. Menurut sebuah makalah penelitian OpenAI, tes SimpleQA adalah “sebuah benchmark yang mengevaluasi kemampuan model bahasa untuk menjawab pertanyaan pendek yang mencari fakta.” (Penekanan kami.)
Seorang perwakilan Google menolak untuk membahas benchmark SimpleQA, atau halusinasi secara umum – namun menunjukkan kepada kami Penjelasan resmi Google tentang Mode AI dan Gambaran AI. Inilah yang dikatakannya:
[Mode AI] menggunakan model bahasa besar untuk membantu menjawab pertanyaan dan mungkin saja, dalam kasus yang jarang terjadi, terkadang mungkin dengan percaya diri menyajikan informasi yang tidak akurat, yang umumnya dikenal sebagai ‘halusinasi.’ Seperti halnya dengan Gambaran AI, dalam beberapa kasus eksperimen ini dapat salah menafsirkan konten web atau melewatkan konteks, seperti yang bisa terjadi dengan sistem otomatis apa pun dalam Pencarian…
Kami juga menggunakan pendekatan baru dengan kemampuan penalaran model untuk meningkatkan kebenaran fakta. Misalnya, bekerja sama dengan tim penelitian Google DeepMind, kami menggunakan pembelajaran penguatan agensial (RL) dalam pelatihan kustom kami untuk memberikan imbalan kepada model untuk menghasilkan pernyataan yang ia tahu lebih mungkin akurat (tidak halusinasi) dan juga didukung oleh input.
Apakah Google salah untuk optimis? Halusinasi mungkin ternyata menjadi masalah yang dapat dipecahkan, setelah semua. Tetapi tampak semakin jelas dari penelitian bahwa halusinasi dari LLM belum dapat dipecahkan saat ini. Itu tidak menghentikan perusahaan seperti Google dan OpenAI melaju ke era Pencarian AI – dan itu kemungkinan akan menjadi era yang penuh dengan kesalahan, kecuali kita yang halusinasi.

MEMBACA  Penawaran Hari Cadangan Dunia: 40 Penawaran Awal pada SSD, Flash Drive, Kartu SD, dan Lainnya