Perusahaan-perusahaan AI besar menjanjikan bahwa 2025 akan menjadi “tahun agen AI”. Nyatanya, tahun ini justru dipenuhi pembicaraan tentang agen AI, sementara momen transformatifnya ditunda hingga 2026 atau mungkin lebih lama. Namun, bagaimana jika jawaban atas pertanyaan “Kapan hidup kita sepenuhnya diotomatisasi oleh robot AI generatif yang menjalankan tugas kita dan pada dasarnya mengelola dunia?” adalah, seperti kartun New Yorker itu, “Bagaimana kalau tidak pernah?”
Itu pada intinya adalah pesan dari sebuah makalah yang diterbitkan tanpa sorotan beberapa bulan lalu, tepat di tengah-tengah tahun “AI agentik” yang dianggap berlebihan. Berjudul “Hallucination Stations: On Some Basic Limitations of Transformer-Based Language Models,” makalah ini berupaya menunjukkan secara matematis bahwa “LLM tidak mampu melaksanakan tugas komputasional dan agentik di luar kompleksitas tertentu.” Meski sainsnya di luar pemahaman saya, para penulis—seorang mantan CTO SAP yang belajar AI di bawah salah satu intelek pendiri bidang ini, John McCarthy, dan putranya yang jenius remaja—membuyarkan visi surga agentik dengan kepastian matematika. Bahkan model penalaran yang melampaui proses prediksi kata murni LLM, kata mereka, tidak akan memperbaiki masalah ini.
“Tidak mungkin mereka bisa andal,” kata Vishal Sikka, sang ayah, kepada saya. Setelah berkarir di SAP, serta pernah menjabat sebagai CEO Infosys dan anggota dewan Oracle, ia saat ini mengepalai startup layanan AI bernama Vianai. “Jadi kita harus melupakan ide agen AI yang mengelola pembangkit listrik tenaga nuklir?” tanya saya. “Tepat sekali,” jawabnya. Mungkin AI bisa digunakan untuk mengajukan beberapa dokumen atau sejenisnya untuk menghemat waktu, tapi kita harus bersiap menerima kemungkinan adanya kesalahan.
Industri AI memiliki pendapat berbeda. Salah satu kesuksesan besar dalam AI agentik adalah di bidang pemrograman, yang meledak tahun lalu. Baru minggu ini di Davos, kepala AI Google peraih Nobel, Demis Hassabis, melaporkan terobosan dalam meminimalkan halusinasi, sementara hyperscaler dan startup sama-sama mendorong narasi agen ini. Kini mereka memiliki dukungan. Sebuah startup bernama Harmonic melaporkan terobosan dalam pemrograman AI yang juga bergantung pada matematika—dan unggul dalam tolok ukur keandalan.
Harmonic, yang didirikan bersama oleh CEO Robinhood Vlad Tenev dan Tudor Achim, seorang matematikawan lulusan Stanford, mengklaim bahwa peningkatan terbaru pada produknya bernama Aristotle (tidak ada kesombongan di sana!) adalah indikasi bahwa ada cara untuk menjamin kepercayaan sistem AI. “Apakah kita ditakdirkan berada di dunia di mana AI hanya menghasilkan sampah dan manusia tidak bisa benar-benar memeriksanya? Itu akan menjadi dunia yang gila,” kata Achim. Solusi Harmonic adalah menggunakan metode formal penalaran matematika untuk memverifikasi keluaran LLM. Khususnya, mereka mengkodekan keluaran dalam bahasa pemrograman Lean, yang dikenal kemampuannya dalam memverifikasi kode. Memang, fokus Harmonic hingga saat ini masih sempit—misi utamanya adalah mengejar “kecerdasan super matematika,” dan pemrograman adalah perluasan yang agak organik. Hal-hal seperti esai sejarah—yang tidak dapat diverifikasi secara matematis—masih di luar batasannya. Untuk saat ini.
Namun, Achim tampaknya tidak berpikir bahwa perilaku agentik yang andal adalah masalah sebesar yang dipercayai beberapa kritikus. “Saya akan mengatakan bahwa kebanyakan model saat ini memiliki tingkat kecerdasan murni yang diperlukan untuk menalar proses pemesanan itinerary perjalanan,” ujarnya.
Kedua belah pihak benar—atau mungkin bahkan berada di pihak yang sama. Di satu sisi, semua sepakat bahwa halusinasi akan terus menjadi realitas yang menjengkelkan. Dalam makalah yang diterbitkan September lalu, ilmuwan OpenAI menulis, “Terlepas dari kemajuan signifikan, halusinasi terus membayangi bidang ini, dan masih ada dalam model-model terbaru.” Mereka membuktikan klaim yang tidak menyenangkan itu dengan meminta tiga model, termasuk ChatGPT, untuk memberikan judul disertasi penulis utama. Ketiganya membuat judul palsu dan salah melaporkan tahun publikasi. Dalam blog tentang makalah tersebut, OpenAI dengan muram menyatakan bahwa dalam model AI, “akurasi tidak akan pernah mencapai 100 persen.”