Untuk memulai, tidak semua RAG memiliki kualitas yang sama. Ketepatan konten dalam database kustom sangat penting untuk hasil yang solid, tetapi itu bukanlah satu-satunya variabel. “Ini bukan hanya kualitas kontennya,” kata Joel Hron, kepala AI global di Thomson Reuters. “Ini kualitas pencarian, dan pengambilan konten yang tepat berdasarkan pertanyaan itu.” Menguasai setiap langkah dalam proses ini kritis karena satu kesalahan dapat membuat model itu benar-benar salah.
“Setiap pengacara yang pernah mencoba menggunakan pencarian bahasa alami dalam salah satu mesin riset akan melihat bahwa seringkali ada situasi di mana kesamaan semantik membawa Anda ke materi yang tidak relevan sama sekali,” kata Daniel Ho, seorang profesor Stanford dan sesama senior di Institute for Human-Centered AI. Penelitian Ho tentang alat hukum AI yang mengandalkan RAG menemukan tingkat kesalahan yang lebih tinggi dalam output daripada yang ditemukan perusahaan yang membangun model.
Hal ini membawa kita pada pertanyaan paling rumit dalam diskusi: Bagaimana Anda mendefinisikan halusinasi dalam implementasi RAG? Apakah hanya ketika chatbot menghasilkan output tanpa kutipan dan membuat informasi? Apakah juga ketika alat tersebut mungkin mengabaikan data relevan atau menafsirkan aspek dari sebuah kutipan?
Menurut Lewis, halusinasi dalam sistem RAG bergantung pada apakah output tersebut konsisten dengan apa yang ditemukan oleh model selama pengambilan data. Meskipun, penelitian Stanford tentang alat AI untuk pengacara memperluas definisi ini sedikit dengan memeriksa apakah output tersebut berdasarkan pada data yang disediakan serta apakah itu benar secara faktual – standar tinggi bagi para profesional hukum yang sering kali memilah-milah kasus yang rumit dan menavigasi hierarki preseden yang kompleks.
Sementara sistem RAG yang berjalan dengan baik dalam masalah hukum jelas lebih baik dalam menjawab pertanyaan tentang hukum kasus daripada ChatGPT milik OpenAI atau Gemini milik Google, tetapi masih bisa mengabaikan detail-detail halus dan membuat kesalahan acak. Semua pakar AI yang saya temui menekankan perlunya interaksi manusia yang berpikir selama proses untuk memeriksa kembali kutipan dan memverifikasi keseluruhan akurasi hasil.
Hukum adalah area di mana ada banyak aktivitas seputar alat AI berbasis RAG, tetapi potensi proses itu tidak terbatas pada satu pekerjaan kelas atas saja. “Ambil saja profesi atau bisnis apa pun. Anda perlu mendapatkan jawaban yang berpijak pada dokumen nyata,” kata Arredondo. “Jadi, saya pikir RAG akan menjadi bahan pokok yang digunakan di hampir setiap aplikasi profesional, setidaknya dalam jangka waktu dekat hingga menengah.” Eksekutif yang menghindari risiko tampaknya antusias tentang prospek menggunakan alat AI untuk lebih memahami data properti mereka tanpa harus mengunggah info sensitif ke chatbot standar, publik.
Namun, penting bagi pengguna untuk memahami keterbatasan alat-alat ini, dan bagi perusahaan yang berfokus pada AI untuk menahan diri dari janji-janji berlebihan tentang akurasi jawaban mereka. Siapa pun yang menggunakan alat AI harus tetap menghindari mempercayai output sepenuhnya, dan mereka harus mendekati jawabannya dengan rasa skeptisisme yang sehat bahkan jika jawabannya diperbaiki melalui RAG.
“Halusinasi akan tetap ada,” kata Ho. “Kita belum memiliki cara yang siap untuk benar-benar menghilangkan halusinasi.” Bahkan ketika RAG mengurangi prevalensi kesalahan, penilaian manusia tetap menjadi yang terutama. Dan itu bukanlah bohong.