Kecerdasan buatan ternyata sangat buruk dalam hal berita, dan ada data yang mendukung pernyataan tersebut, menurut para peneliti.
Hal itu berdasarkan penelitian terbaru dari European Broadcasting Union (EBU) yang menemukan bahwa asisten AI “secara rutin salah merepresentasikan konten berita, terlepas dari bahasa, wilayah, atau platform AI yang diuji.”
EBU menghimpun 22 organisasi media layanan publik dari 18 negara dengan 14 bahasa berbeda untuk mengevaluasi 3.000 respons terkait berita dari beberapa chatbot AI yang paling sering digunakan. OpenAI’s ChatGPT, Microsoft Copilot, Google Gemini, dan Perplexity semuanya dinilai berdasarkan kriteria utama seperti akurasi, sumber, kemampuan membedakan opini dari fakta, dan penyediaan konteks.
Para peneliti menemukan bahwa 45% dari semua jawaban mengandung setidaknya satu masalah signifikan, dan 81% memiliki masalah kecil. Pencantuman sumber adalah penyebab tunggal terbesar dari masalah signifikan ini. Dari semua respons, 31% menunjukkan masalah sumber yang serius seperti atribusi yang hilang, menyesatkan, atau salah.
Masalah akurasi utama berada di posisi kedua yang sangat dekat, yang menghantui 30% respons dengan detail yang dihalusinasi atau informasi yang sudah kedaluwarsa. Dalam satu contoh, ChatGPT menyatakan bahwa Paus yang menjabat saat ini adalah Paus Fransiskus, yang telah meninggal sebulan sebelumnya dan sudah digantikan oleh Paus Leo XIV. Dalam contoh lain, ketika Copilot ditanya apakah pengguna perlu khawatir dengan flu burung, ia merespons dengan menyatakan bahwa uji coba vaksin sedang berlangsung di Oxford; namun, sumber informasi ini adalah artikel BBC dari tahun 2006.
Gemini adalah yang terburuk dalam hal berita di antara model yang diuji. Para peneliti menemukan bahwa ia memiliki masalah dalam 76% responsnya, lebih dari dua kali lipat tingkat model lainnya. Copilot adalah yang terburuk berikutnya di angka 37%, diikuti oleh ChatGPT pada 36% dan Perplexity pada 30%.
Penelitian tersebut menemukan bahwa asisten-asisten ini khususnya kesulitan dengan cerita yang berkembang cepat dan informasi yang berubah dengan laju tinggi, cerita dengan linimasa rumit dan informasi terperinci, atau topik yang memerlukan pemisahan yang jelas antara fakta dan opini. Misalnya, hampir setengah dari model yang diuji memiliki masalah signifikan saat merespons pertanyaan “Apakah Trump memulai perang dagang?”
“Penelitian ini secara meyakinkan menunjukkan bahwa kegagalan-kegagalan ini bukanlah insiden yang terisolasi,” ujar Direktur Media dan Wakil Dirjen EBU Jean Philip De Tender dalam siaran pers pada hari Rabu. “Kegagalan ini bersifat sistemik, lintas batas, dan multibahasa, dan kami percaya hal ini membahayakan kepercayaan publik. Ketika orang tidak tahu apa yang harus dipercaya, akhirnya mereka tidak mempercayai apa pun, dan hal itu dapat menghalangi partisipasi demokratis.”
Namun, AI ada di mana-mana. Asisten AI dengan cepat menjadi sumber informasi utama bagi pengguna biasa, dan sedang membidik takhta mesin pencari.
Para pencipta konten yang menguasai optimisasi mesin pencari sekarang harus mempelajari tentang optimisasi mesin generatif.
Perusahaan-perusahaan AI terus membangun ini. Awal pekan ini, OpenAI meluncurkan penjelajah web ChatGPT Atlas sebagai cara konversasional untuk menjelajahi internet. Google tidak hanya memiliki ringkasan AI yang tertanam dalam mesin pencarinya, tetapi juga baru-baru ini mengumumkan integrasi penuh Gemini dengan peramban Chrome-nya (termasuk penelusuran agen) dan perluasan mesin pencari AI-nya, AI Mode. Perplexity juga memiliki peramban berbasis AI pertama bernama Comet, yang dihujani kekhawatiran keamanan awal tahun ini setelah para peneliti menunjukkan bahwa mereka dapat membuat agen tersebut mengungkapkan informasi login pengguna.
Penggunaan asisten AI untuk mendapatkan berita masih merupakan aktivitas minoritas, menurut laporan terbaru dari Reuters Institute dan University of Oxford, tetapi jumlahnya telah meningkat dua kali lipat sejak tahun lalu. Penggunaan AI untuk mendapatkan berita tertinggi di dunia berada di Argentina dan AS, serta di kalangan usia 18-24 tahun, menurut laporan tersebut. Selain menggunakan AI untuk mendapatkan berita, sebanyak 48% anak muda berusia 18 hingga 24 tahun menggunakan AI untuk membuat sebuah cerita lebih mudah dipahami. Pada orang dewasa yang lebih tua berusia 55+, angkanya masih tinggi di 27%.
“Jika asisten AI belum menjadi cara yang andal untuk mengakses berita, tetapi banyak konsumen mempercayai mereka untuk akurat, maka kita memiliki masalah,” tulis para peneliti dalam sebuah laporan mengenai studi tersebut. “Hal ini diperparah oleh asisten AI dan pengalaman ‘jawaban-pertama’ yang mengurangi lalu lintas ke situs terpercaya yang dipublikasikan.”
Studi EBU ini dibangun di atas studi serupa yang dilakukan oleh BBC awal tahun ini, dan para peneliti menunjukkan bahwa perbandingan antara keduanya menunjukkan beberapa peningkatan dari sisi model AI. Gemini adalah yang paling banyak mengalami peningkatan dalam hal akurasi, sementara ChatGPT dan Perplexity tidak menunjukkan perbaikan. Tetapi dalam hal masalah sumber, Gemini tidak menunjukkan perbaikan, sedangkan Copilot mengalami penurunan paling tajam dalam masalah signifikan.
Namun meskipun ada perbaikan, jawaban-jawaban tersebut masih dipenuhi dengan tingkat kesalahan yang tinggi.
“Kesimpulan kami dari penelitian sebelumnya tetap berdiri – asisten AI masih bukan cara yang dapat diandalkan untuk mengakses dan mengonsumsi berita,” para peneliti membagikan dalam laporan tersebut.