Chatbot sungguh mengesankan saat kita melihatnya melakukan hal-hal yang mereka kuasai, seperti menulis email sederhana atau membuat gambar futuristik aneh. Tapi coba minta AI generatif untuk menyelesaikan teka-teki di koran, hasilnya bisa berantakan.
Itulah yang ditemukan peneliti di University of Colorado Boulder ketika mereka menguji model bahasa besar untuk memecahkan Sudoku. Bahkan bukan yang standar 9×9. Teka-teki 6×6 yang lebih mudah pun seringkali di luar kemampuan LLM tanpa bantuan eksternal (dalam hal ini, alat pemecah teka-teki khusus).
Temuan lebih penting muncul ketika model diminta menunjukkan proses berpikirnya. Sebagian besar tidak bisa. Kadang mereka berbohong. Kadang penjelasannya tidak masuk akal. Kadang berhalusinasi dan mulai membahas cuaca.
Jika AI generatif tak bisa menjelaskan keputusannya dengan akurat atau transparan, kita harus berhati-hati memberinya kendali lebih atas hidup dan keputusan kita, kata Ashutosh Trivedi, profesor ilmu komputer di University of Colorado Boulder dan salah satu penulis makalah yang terbit Juli di Findings of the Association for Computational Linguistics.
“Kami ingin penjelasan itu transparan dan mencerminkan alasan AI mengambil keputusan, bukan sekadar memanipulasi manusia dengan memberikan penjelasan yang disukai manusia,” ujar Trivedi.
Saat Anda mengambil keputusan, Anda bisa mencoba membenarkannya atau setidaknya menjelaskan prosesnya. Model AI mungkin tidak mampu melakukannya dengan akurat atau transparan. Masih percayakah Anda?
Mengapa LLM kesulitan dengan Sudoku
Kita pernah melihat model AI gagal dalam permainan dan teka-teki dasar. ChatGPT OpenAI (dan lainnya) pernah dihancurkan dalam catur oleh lawan komputer dari game Atari 1979. Penelitian terbaru Apple menemukan model bisa kesulitan dengan teka-teki lain seperti Menara Hanoi.
Ini berkaitan dengan cara kerja LLM mengisi celah informasi. Model ini mencoba melengkapi celah berdasarkan data pelatihan atau hal lain yang pernah dilihat. Dalam Sudoku, pertanyaannya adalah soal logika. AI mungkin mencoba mengisi setiap celah secara berurutan dengan jawaban yang terlihat masuk akal, tapi untuk menyelesaikannya dengan benar, AI harus melihat gambaran utuh dan menemukan urutan logis yang berbeda di setiap teka-teki.
Chatbot buruk dalam catur karena alasan serupa. Mereka menemukan langkah logis berikutnya tapi tidak selalu memikirkan tiga, empat, atau lima langkah ke depan—keterampilan dasar untuk bermain catur dengan baik. Chatbot juga kadang memindahkan bidak dengan cara yang melanggar aturan atau menempatkannya dalam bahaya tanpa alasan.
Anda mungkin berharap LLM bisa memecahkan Sudoku karena mereka komputer dan teka-teki itu berisi angka, tapi sebenarnya Sudoku bukan masalah matematis; ini simbolis. “Sudoku terkenal sebagai teka-teki angka yang bisa diselesaikan dengan apa pun selain angka,” kata Fabio Somenzi, profesor di CU dan salah satu penulis makalah penelitian.