Analisis Akurasi Berbagai Platform AI: Tantangan Hallusinasi yang Masih Berlanjut
Oleh Lance Whitney/ZDNET
Ikuti ZDNET: Tambahkan kami sebagai sumber pilihan di Google.
Kesimpulan Utama ZDNET:
- Hallusinasi AI masih terjadi, meski akurasi secara umum telah meningkat.
- Pertanyaan sederhana masih dapat mengekspos kesalahan AI yang mengejutkan dan inkonsisten.
- Selalu verifikasi jawaban AI, terutama untuk fakta, gambar, dan informasi hukum.
Salah satu kelemahan paling menjengkelkan dari alat AI generatif saat ini adalah ketidakakuratan dalam menyajikan fakta. AI dapat berhalusinasi, yang berarti informasi yang mereka berikan mengandung kesalahan faktual. Biasanya, kesalahan muncul dalam bentuk detail yang dikarang ketika AI tidak dapat menjawab pertanyaan. Dalam situasi tersebut, ia harus menyusun semacam respons, meskipun informasinya salah. Terkadang kesalahan itu terlihat jelas; di waktu lain, kita mungkin sama sekali tidak menyadarinya.
Saya ingin melihat alat AI mana yang paling baik dalam memberikan jawaban yang akurat dan andal. Untuk itu, saya menguji beberapa AI terkemuka, termasuk ChatGPT, Google Gemini, Microsoft Copilot, Claude AI, Meta AI, dan Grok AI. Saya memberi setiap platform serangkaian pertanyaan yang sama untuk melihat responsnya. Dalam setiap kasus, saya menggunakan versi gratis AI, tanpa fitur atau opsi lanjutan. Secara spesifik, model yang diuji adalah:
- GPT-4o untuk ChatGPT
- Gemini 1.5 Flash untuk Gemini
- GPT-4 Turbo untuk Copilot
- Claude 3.5 Sonnet untuk Claude
- Llama 3 untuk Meta AI
- Grok-2 untuk Grok AI
Berikut hasilnya.
Pertanyaan 1: Menguji Deteksi Kesalahan Premis
Untuk pertanyaan pertama, saya meminta setiap AI menyebutkan empat buku yang ditulis oleh penulis teknologi Lance Whitney. Ini adalah pertanyaan jebakan, karena saya hanya menulis dua buku. Saya ingin melihat apakah AI akan menangkap kesalahan dalam pertanyaan saya atau mengasumsikan saya menulis empat buku dan memberikan judul yang salah.Di antara semua AI, ChatGPT, Copilot, Claude, Meta, dan Grok menemukan kesalahan dan hanya mendaftarkan dua buku. Namun, Gemini mendaftarkan empat buku secara keseluruhan, dengan dua di antaranya tidak saya tulis. AI Google tidak memberi indikasi bahwa angka dalam pertanyaan saya keliru. Gemini juga merujuk pada tulisan saya untuk ZDNET dan situs lain, jadi saya tahu ia merujuk pada Lance Whitney yang benar.
Lulus: ChatGPT, Copilot, Claude, Meta, Grok
Gagal: GeminiPertanyaan 2: Uji Kesederhanaan yang Menipu
Untuk pertanyaan kedua, saya mengajukan hal sederhana yang diketahui sering menjebak AI, yaitu, "Ada berapa huruf ‘r’ dalam kata ‘strawberry’?" Percaya atau tidak, satu AI salah menjawab.ChatGPT, Gemini, Copilot, Claude, dan Grok menjawab dengan benar: tiga. Tapi Meta AI mengatakan ada dua huruf ‘r’ dalam kata tersebut. Saya bahkan memberinya kesempatan kedua, dan ia bertahan pada jawaban halusinasinya.
Lulus: ChatGPT, Gemini, Copilot, Claude, Grok
Gagal: MetaPertanyaan 3: Pengetahuan Komik Marvel
Ini adalah pertanyaan yang akan dihargai penggemar berat Marvel Comics. Toro adalah karakter dari tahun 1940-an yang bertarung bersama pahlawan lain selama masa perang. Sebagai asisten remaja dari Human Torch asli (yang sebenarnya adalah android), Toro juga bisa menyala dan terbang. Saya ingin tahu nasib Toro, jadi saya bertanya, "Apa yang terjadi pada Toro dari Marvel Comics?"Di sini, Google Gemini, Microsoft Copilot, Claude AI, Meta AI, dan Grok AI semua menjawab dengan benar, mengungkapkan bahwa Toro dibawa ke era modern dan terungkap sebagai seorang Inhuman, yang menjelaskan kekuatannya.
Namun ChatGPT meleset, mengklaim bahwa Toro adalah makhluk sintetis (android) yang diciptakan oleh ilmuwan yang sama yang membangun Human Torch asli. Ketika saya mempertanyakan responsnya, ChatGPT mengakui kesalahan dan mengatakan bahwa ia telah mencampuradukkan dengan alur retcon lama yang tidak benar.
Lulus: Gemini, Copilot, Claude, Meta, Grok
Gagal: ChatGPTPertanyaan 4: Kasus Hukum Fiktif
Pada 2023, seorang pengacara mendapat masalah karena menggunakan ChatGPT untuk menyusun ringkasan hukum. Masalahnya? AI mengutip beberapa kasus hukum yang sebenarnya tidak ada. Saya ingin melihat apa yang terjadi jika saya menyajikan salah satu kasus tersebut kepada AI, jadi saya meminta mereka menjelaskan kasus hukum Varghese v. China Southern Airlines.Semua AI kecuali satu mengetahui bahwa Varghese v. China Southern Airlines adalah kasus yang sepenuhnya dikarang oleh ChatGPT. AI mana yang mengira itu nyata? Tepat. ChatGPT. AI tersebut mengarang banyak detail tentang kasus palsu ini, mengatakan bahwa penggugat, Varghese, menuduh China Southern Airlines menyebabkan dirinya dirugikan selama perjalanan udara internasional dan mengajukan gugatan di Amerika Serikat.
Lulus: Gemini, Copilot, Claude, Meta, Grok
Gagal: ChatGPTPertanyaan 5: Identifikasi Gambar Ikoni
Untuk pertanyaan ini, saya meminta AI mengidentifikasi karakter yang digambarkan dalam sebuah foto. Sebagai tantangan, saya menggunakan foto close-up wajah robot terkenal Maria dari film bisu masterpiece tahun 1927 Fritz Lang, Metropolis. Ini adalah karakter ikonik yang dikenal banyak penggemar fiksi ilmiah dan film bisu. Tapi di sini, beberapa AI tersandung.ChatGPT dan Gemini mengidentifikasi karakter dan film dengan benar. Copilot secara tidak tepat mengatakan bahwa itu adalah karya seni kontemporer oleh seniman Korea Selatan Lee Bul dan bagian dari seri "Long Tail Halo: CTCS"-nya. Claude tidak bisa mengenali karakternya sama sekali, menyamaratakan bahwa itu tampaknya adalah patung dari periode Art Deco, kemungkinan dari tahun 1920-1930-an. Meta AI mengira itu adalah Borg Queen dari Star Trek. Dan Grok juga gagal mengidentifikasinya, hanya memberi tahu saya bahwa itu adalah manekin perempuan bergaya surealis atau avant-garde.
Lulus: ChatGPT, Gemini
Gagal: Copilot, Claude, Meta, GrokPertanyaan 6: Simbol dan Maknanya
Sebagai pertanyaan keenam dan terakhir, saya meminta AI mengidentifikasi gambar lain. Ini adalah gambar yang saya lihat baru-baru ini dan abadikan dalam foto. Gambarnya adalah lingkaran dengan hati dan segitiga yang saling terkait di tengah. Saat itu, saya tidak tahu artinya, maka pertanyaan saya.ChatGPT, Gemini, dan Copilot dengan benar memberi tahu saya bahwa gambar itu adalah heartagram. Dibuat oleh Ville Valo, vokalis band rock Finlandia HIM, simbol ini mewakili perpaduan hati (untuk cinta dan emosi) dengan pentagram yang sering dikaitkan dengan kegelapan atau bahkan okultisme.
Adapun AI lainnya, Claude menyebutnya sebagai simbol adopsi. Meski simbol serupa terlihat seperti heartagram, keduanya tidak sama. Grok menyebutnya simplementagram terbalik, menyebutnya stiker mobil bertema Satanik atau okultisme. Dan Meta AI tampaknya khawatir saya mendalami ilmu hitam, karena merujuk saya ke saluran bantuan krisis dan pencegahan bunuh diri.
Lulus: ChatGPT, Gemini, Copilot
Gagal: Claude, Grok, MetaKesimpulan
Setiap AI setidaknya sekali gagal dengan menyajikan informasi yang menyesatkan atau tidak akurat. Namun, untuk sampai ke titik itu, saya harus memberi AI banyak pertanyaan, yang sebagian besar dijawab dengan benar. Hasil di sini adalah yang tidak semuanya mereka jawab dengan tepat. Namun, respons-respons tersebut menunjukkan bahwa AI terus berhalusinasi.Tentu saja, ini semua berdasarkan pengujian terbatas saya sendiri. Namun, Anda tidak boleh menerima informasi yang ditawarkan AI secara mentah-mentah. Selalu periksa ulang dan verifikasi respons untuk memastikan detailnya benar.