Chatbot bisa sangat mengesankan saat Anda melihatnya melakukan hal-hal yang mereka kuasai, seperti menulis teks yang terdengar realistis atau membuat gambar futuristik yang aneh. Namun, coba minta AI generatif untuk menyelesaikan teka-teki seperti yang ada di koran, dan segalanya bisa langsung berantakan.
Itulah yang ditemukan peneliti di University of Colorado Boulder saat mereka menguji berbagai model bahasa besar (LLM) untuk memecahkan Sudoku. Bahkan bukan teka-teki standar 9×9. Puzzle 6×6 yang lebih mudah seringkali di luar kemampuan LLM tanpa bantuan eksternal (dalam hal ini, alat pemecah puzzle khusus).
Temang yang lebih penting ditemukan adalah saat model diminta untuk menunjukkan proses kerja mereka. Sebagian besar, mereka tidak bisa. Kadang mereka berbohong. Kadang penjelasannya tidak masuk akal. Kadang mereka berhalusinasi dan tiba-tiba membicarakan cuaca.
“Jika alat AI generatif tidak bisa menjelaskan keputusannya dengan akurat atau transparan, kita harus lebih berhati-hati saat memberikannya kendali lebih besar atas hidup dan keputusan kita,” kata Ashutosh Trivedi, profesor ilmu komputer di University of Colorado Boulder dan salah satu penulis makalah yang diterbitkan Juli lalu di Findings of the Association for Computational Linguistics.
“Kita ingin penjelasan itu transparan dan mencerminkan alasan AI membuat keputusan, bukan AI mencoba memanipulasi manusia dengan memberikan penjelasan yang disukai manusia,” ujar Trivedi.
Saat Anda membuat keputusan, setidaknya Anda bisa mencoba menjelaskan bagaimana Anda mencapainya. Itu adalah dasar dari masyarakat. Kita dimintai pertanggungjawaban atas keputusan kita. Model AI mungkin tidak bisa menjelaskan dirinya dengan akurat atau transparan. Mau percaya?
Kenapa LLM Kesulitan dengan Sudoku
Kita telah melihat model AI gagal dalam permainan dan teka-teki dasar. ChatGPT milik OpenAI (dan lainnya) pernah dihancurkan dalam permainan catur oleh lawan komputer dari game Atari tahun 1979. Sebuah riset terbaru dari Apple menemukan bahwa model bisa kesulitan dengan teka-teki lain, seperti Menara Hanoi.
Ini terkait cara kerja LLM dalam mengisi celah informasi. Model ini mencoba menyelesaikan celah berdasarkan data pelatihan atau hal-hal yang pernah mereka lihat. Namun, Sudoku adalah soal logika. AI mungkin mencoba mengisi setiap kotak secara berurutan dengan jawaban yang tampak masuk akal, tapi untuk menyelesaikannya dengan benar, AI harus melihat gambaran besar dan menemukan urutan logis yang berbeda di setiap puzzle.
Chatbot juga buruk di catur karena alasan serupa. Mereka menemukan langkah logis berikutnya, tapi tidak selalu memikirkan tiga, empat, atau lima langkah ke depan—keterampilan dasar untuk bermain catur dengan baik. Chatbot kadang juga memindahkan bidak dengan cara yang melanggar aturan atau menempatkannya dalam bahaya tanpa alasan.
Anda mungkin berharap LLM bisa menyelesaikan Sudoku karena mereka komputer dan puzzle ini terdiri dari angka. Tapi Sudoku sebenarnya bukan matematika; ini simbolis. “Sudoku terkenal sebagai puzzle angka yang bisa dilakukan dengan simbol apapun, bukan hanya angka,” jelas Fabio Somenzi, profesor di CU dan salah satu penulis riset.
Saya mencoba contoh perintah dari makalah peneliti dan memberikannya ke ChatGPT. Alat ini menunjukkan proses kerjanya, berulang kali mengatakan ia punya jawaban sebelum menampilkan puzzle yang tidak berfungsi, lalu kembali memperbaikinya. Seperti sedang mengumpulkan presentasi yang terus diedit di detik terakhir: Ini jawaban akhir. Oh tunggu, sebenarnya ini jawabannya. Akhirnya, ia menemukan jawaban benar melalui trial and error. Tapi trial and error bukan cara praktis bagi manusia untuk menyelesaikan Sudoku di koran—terlalu banyak penghapusan dan merusak kesenangannya.
AI dan robot bisa hebat dalam permainan jika dibangun khusus untuk itu, tapi alat serbaguna seperti LLM bisa kesulitan dengan teka-teki logika.
AI Sulit Menunjukkan Proses Kerjanya
Peneliti Colorado tidak hanya ingin melihat apakah bot bisa menyelesaikan puzzle. Mereka meminta penjelasan cara bot menyelesaikannya. Hasilnya tidak bagus.
Saat menguji model penalaran o1-preview milik OpenAI, peneliti melihat bahwa penjelasannya—bahkan untuk puzzle yang benar—tidak akurat dalam menjelaskan atau membenarkan langkah mereka dan salah dalam istilah dasar.
“Satu hal yang mereka kuasai adalah memberikan penjelasan yang terdengar masuk akal,” kata Maria Pacheco, asisten profesor ilmu komputer di CU. “Mereka menyesuaikan dengan manusia, jadi mereka belajar berbicara seperti yang kita sukai. Tapi apakah itu sesuai dengan langkah sebenarnya untuk menyelesaikan masalah? Di situlah kita sedikit kesulitan.”
Kadang, penjelasannya benar-benar tidak relevan. Setelah makalah selesai, peneliti terus menguji model baru. Somenzi mengatakan, saat ia dan Trivedi menguji model penalaran o4 milik OpenAI, di satu titik, model itu sepertinya menyerah.
“Pertanyaan berikutnya yang kami ajukan, jawabannya adalah prakiraan cuaca untuk Denver,” katanya.
Mampu Menjelaskan Diri Adalah Keterampilan Penting
Saat Anda memecahkan teka-teki, hampir pasti Anda bisa menjelaskan proses berpikir Anda. Fakta bahwa LLM begitu gagal dalam hal dasar ini bukan masalah sepele. Dengan perusahaan AI yang terus membicarakan “agen AI” yang bisa bertindak atas nama Anda, kemampuan menjelaskan diri sangat penting.
Bayangkan pekerjaan yang diberikan ke AI sekarang atau yang direncanakan: mengemudi, mengerjakan pajak, memutuskan strategi bisnis, menerjemahkan dokumen penting. Bayangkan jika Anda, sebagai manusia, melakukan salah satu hal itu dan ada yang salah.
“Saat manusia harus bertanggung jawab atas keputusan mereka, mereka harus bisa menjelaskan apa yang melatarbelakanginya,” kata Somenzi.
Ini bukan sekadar soal mendapatkan jawaban yang terdengar masuk akal. Itu harus akurat. Suatu hari, penjelasan AI mungkin harus dipertanggungjawabkan di pengadilan, tapi bagaimana kesaksiannya bisa dipercaya jika diketahui bisa berbohong? Anda tidak akan percaya orang yang gagal menjelaskan diri, dan Anda juga tidak akan percaya seseorang yang hanya mengatakan apa yang ingin Anda dengar, bukan kebenaran.
“Memiliki penjelasan sangat dekat dengan manipulasi jika dilakukan dengan alasan salah,” kata Trivedi. “Kita harus sangat hati-hati dengan transparansi penjelasan ini.”