Kecerdasan Buatan Payah dalam Sudoku, Tapi Penjelasannya Lebih Parah. Ini Mengapa Itu Mencemaskan

Chatbot memang cukup mengesankan ketika Anda menyaksikannya mengerjakan tugas yang menjadi keahliannya, seperti menulis email sederhana atau menciptakan gambar-gambar futuristik yang aneh. Namun, coba minta kecerdasan buatan generatif untuk memecahkan salah satu teka-teki di halaman belakang koran, maka situasi bisa langsung menjadi kacau.

Itulah yang ditemukan para peneliti di University of Colorado di Boulder ketika mereka menantang model bahasa besar (LLM) untuk menyelesaikan sudoku. Bahkan bukan teka-teki standar 9×9. Teka-teki 6×6 yang lebih mudah pun sering kali berada di luar kemampuan LLM tanpa bantuan dari luar (dalam hal ini, alat pemecah teka-teki tertentu).

Temuan yang lebih penting muncul ketika model-model tersebut diminta untuk menunjukkan proses kerjanya. Sebagian besar, mereka tidak mampu. Terkadang mereka berbohong. Terkadang mereka menjelaskan hal-hal dengan cara yang tidak masuk akal. Terkadang mereka mengalami halusinasi dan mulai membicarakan cuaca.

“Jika alat AI generatif tidak dapat menjelaskan keputusannya secara akurat atau transparan, hal itu seharusnya membuat kita lebih berhati-hati seiring kita memberikan kendali lebih besar atas hidup dan keputusan kita pada hal-hal ini,” kata Ashutosh Trivedi, profesor ilmu komputer di University of Colorado di Boulder dan salah satu penulis makalah yang diterbitkan pada Juli di *Findings of the Association for Computational Linguistics*.

“Kami sangat menginginkan penjelasan-penjelasan itu transparan dan merefleksikan alasan di balik keputusan AI tersebut, bukan AI yang mencoba memanipulasi manusia dengan memberikan penjelasan yang mungkin disukai manusia,” ujar Trivedi.


Jangan lewatkan konten teknologi dan ulasan berbasis lab yang tidak bias dari kami. Tambahkan CNET sebagai sumber pilihan di Google.


Makalah ini merupakan bagian dari semakin banyaknya penelitian terkait perilaku model bahasa besar. Studi-studi terkini lainnya, misalnya, menemukan bahwa model berhalusinasi sebagian karena prosedur pelatihannya mendorong mereka untuk menghasilkan hasil yang disukai pengguna, ketimbang yang akurat, atau bahwa orang yang menggunakan LLM untuk membantu menulis esai cenderung tidak mengingat apa yang mereka tulis. Seiring AI generatif semakin menjadi bagian dari kehidupan sehari-hari, implikasi dari cara kerja teknologi ini dan perilaku kita saat menggunakannya menjadi sangat penting.

Saat Anda mengambil keputusan, Anda dapat mencoba membenarkannya atau setidaknya menjelaskan bagaimana Anda sampai pada keputusan itu. Sebuah model AI mungkin tidak dapat melakukan hal yang sama secara akurat atau transparan. Apakah Anda akan mempercayainya?

MEMBACA  Cuplikan Terbaru 'Wildwood' Laika: Sebuah Keajaiban Teknologi

Watch this: I Built an AI PC From Scratch

04:07

Mengapa LLM Kesulitan dengan Sudoku

Kita telah melihat model AI gagal dalam permainan dan teka-teki dasar sebelumnya. ChatGPT milik OpenAI (dan lainnya) pernah dihancurkan total dalam catur oleh lawan komputer dalam permainan Atari tahun 1979. Sebuah makalah penelitian terbaru dari Apple menemukan bahwa model dapat kesulitan dengan teka-teki lain, seperti Menara Hanoi.

Ini berkaitan dengan cara kerja LLM dan bagaimana mereka mengisi kekosongan informasi. Model-model ini mencoba melengkapi kekosongan tersebut berdasarkan apa yang terjadi dalam kasus serupa di data pelatihan mereka atau hal-hal lain yang pernah mereka lihat di masa lalu. Dalam sudoku, pertanyaannya adalah soal logika. AI mungkin mencoba mengisi setiap kotak kosong secara berurutan, berdasarkan jawaban yang tampak masuk akal, tetapi untuk menyelesaikannya dengan benar, AI justru harus melihat gambaran keseluruhan dan menemukan urutan logis yang berbeda dari satu teka-teki ke teka-teki lainnya.

Baca selengkapnya: 29 Cara Agar AI Generatif Bekerja untuk Anda, Menurut Para Ahli Kami

Chatbot buruk dalam catur karena alasan yang serupa. Mereka menemukan langkah logis berikutnya tetapi belum tentu berpikir tiga, empat, atau lima langkah ke depan — keterampilan mendasar yang dibutuhkan untuk bermain catur dengan baik. Chatbot juga terkadang cenderung menggerakkan bidak catur dengan cara yang tidak mengikuti aturan atau menempatkan bidak dalam bahaya yang tidak berarti.

Anda mungkin berharap LLM dapat menyelesaikan sudoku karena mereka adalah komputer dan teka-teki itu terdiri dari angka, tetapi teka-teki itu sendiri sebenarnya tidak matematis; mereka bersifat simbolik. “Sudoku terkenal sebagai teka-teki dengan angka yang sebenarnya bisa dikerjakan dengan apa saja yang bukan angka,” kata Fabio Somenzi, profesor di CU dan salah satu penulis makalah penelitian tersebut.

Saya menggunakan *prompt* contoh dari makalah para peneliti dan memberikannya kepada ChatGPT. Alat tersebut menunjukkan proses kerjanya dan berulang kali mengatakan telah menemukan jawaban sebelum menunjukkan teka-teki yang tidak berhasil, lalu kembali dan memperbaikinya. Rasanya seperti bot tersebut sedang menyerahkan presentasi yang terus-menerus mendapat suntingan detik terakhir: Ini jawaban akhirnya. Tunggu, tidak, lupakan, ini jawaban akhirnya. Pada akhirnya, ia mendapatkan jawaban yang benar, melalui coba-coba. Tetapi coba-coba bukanlah cara praktis bagi seseorang untuk menyelesaikan sudoku di koran. Itu menghapus terlalu banyak dan merusak kesenangannya.

MEMBACA  Beberapa Game Ramah Keluarga Akan Datang ke Apple Arcade pada Bulan Juni

AI dan robot bisa jadi ahli dalam permainan jika mereka memang dibangun untuk itu, tetapi alat serbaguna seperti model bahasa besar dapat kesulitan dengan teka-teki logika.

Ore Huiying/Bloomberg/Getty Images

AI Kesulitan Menunjukkan Proses Kerjanya

Para peneliti Colorado tidak hanya ingin melihat apakah bot dapat memecahkan teka-teki. Mereka meminta penjelasan tentang bagaimana bot-bot itu mengerjakannya. Hasilnya tidak baik.

Menguji model penalaran *o1-preview* milik OpenAI, para peneliti melihat bahwa penjelasan — bahkan untuk teka-teki yang berhasil diselesaikan dengan benar — tidak secara akurat menjelaskan atau membenarkan langkah-langkahnya dan bahkan salah dalam istilah-istilah dasar.

“Salah satu hal yang mereka kuasai adalah memberikan penjelasan yang tampak masuk akal,” kata Maria Pacheco, asisten profesor ilmu komputer di CU. “Penjelasan itu selaras dengan manusia, jadi mereka belajar berbicara seperti yang kita sukai, tetapi apakah penjelasan itu setia pada langkah-langkah sebenarnya yang diperlukan untuk memecahkan masalah adalah bagian di mana kami agak kesulitan.”

Terkadang, penjelasan yang diberikan sama sekali tidak relevan. Sejak pekerjaan makalah selesai, para peneliti terus menguji model-model baru yang dirilis. Somenzi mengatakan bahwa ketika dia dan Trivedi menjalankan model penalaran *o4* milik OpenAI melalui tes yang sama, pada satu titik, model tersebut tampak menyerah sepenuhnya.

“Pertanyaan berikutnya yang kami ajukan, jawabannya adalah ramalan cuaca untuk Denver,” katanya.

(Keterangan: Ziff Davis, perusahaan induk CNET, pada bulan April mengajukan gugatan terhadap OpenAI, dengan tuduhan melanggar hak cipta Ziff Davis dalam melatih dan mengoperasikan sistem AI-nya.)

Model yang Lebih Baik Tetap Buruk dalam Hal yang Penting

Para peneliti di Colorado bukan satu-satunya yang menantang model bahasa dengan sudoku. Sakana AI telah menguji seberapa efektif model-model yang berbeda dalam memecahkan teka-teki ini sejak Mei. Papan peringkat mereka menunjukkan bahwa model-model yang lebih baru, khususnya GPT-5 milik OpenAI, memiliki tingkat keberhasilan penyelesaian yang jauh lebih baik daripada pendahulunya. GPT-5 adalah yang pertama dalam tes ini yang berhasil memecahkan varian masalah sudoku modern 9×9 bernama Theta. Meski demikian, LLM masih kesulitan dengan penalaran yang sebenarnya, dibandingkan dengan pemecahan masalah komputasional, tulis para peneliti Sakana dalam sebuah postingan blog. “Meskipun GPT-5 menunjukkan kemampuan penalaran matematika yang mengesankan dan pemikiran strategis seperti manusia pada teka-teki yang dibatasi secara aljabar, model ini sangat kesulitan dengan tantangan penalaran spasial yang memerlukan pemahaman spasial,” tulis mereka.

MEMBACA  Ringkasan AI Google Menyalin Hasil Pencarian Saya

Tim peneliti Colorado juga menemukan bahwa GPT-5 merupakan “langkah maju yang signifikan” tetapi masih belum terlalu ahli dalam menyelesaikan sudoku. GPT-5 masih buruk dalam menjelaskan bagaimana ia sampai pada suatu solusi, kata mereka. Dalam satu tes, tim Colorado menemukan model tersebut menjelaskan bahwa ia menempatkan sebuah angka di dalam teka-teki yang sebenarnya sudah diberikan sebagai petunjuk awal.

“Secara keseluruhan, kesimpulan kami dari studi awal pada dasarnya tetap tak berubah: ada kemajuan dalam kemampuan penyelesaian mentah, tetapi belum dalam penjelasan langkah demi langkah yang dapat dipercaya,” kata tim Colorado dalam sebuah email.

Mampu Menjelaskan Diri Adalah Keterampilan Penting

Saat Anda memecahkan sebuah teka-teki, hampir pasti Anda dapat memandu orang lain melalui pemikiran Anda. Fakta bahwa LLM ini gagal secara spektakuler dalam tugas dasar itu bukanlah masalah sepele. Dengan perusahaan-perusahaan AI yang terus-menerus membicarakan “agen AI” yang dapat mengambil tindakan atas nama Anda, kemampuan untuk menjelaskan diri menjadi sangat penting.

Pertimbangkan jenis pekerjaan yang saat ini diberikan kepada AI, atau yang direncanakan untuk masa depan: mengemudi, mengerjakan pajak, memutuskan strategi bisnis, dan menerjemahkan dokumen-dokumen penting. Bayangkan apa yang akan terjadi jika Anda, seorang manusia, melakukan salah satu hal itu dan sesuatu menjadi salah.

“Ketika manusia harus mempertanggungjawabkan keputusan mereka, mereka sebaiknya mampu menjelaskan apa yang mendasari keputusan itu,” kata Somenzi.

Ini bukan sekadar mendapatkan jawaban yang terdengar masuk akal. Jawaban itu harus akurat. Suatu hari, penjelasan AI tentang dirinya sendiri mungkin harus dipertanggungjawabkan di pengadilan, tetapi bagaimana kesaksiannya bisa dipercaya jika diketahui suka berbohong? Anda tidak akan mempercayai orang yang gagal menjelaskan dirinya, dan Anda juga tidak akan mempercayai seseorang yang Anda ketahui mengatakan apa yang ingin Anda dengar daripada kebenaran.

“Memiliki penjelasan sangat dekat dengan manipulasi jika itu dilakukan dengan alasan yang salah,” kata Trivedi. “Kita harus sangat berhati-hati terkait transparansi dari penjelasan-penjelasan ini.”

Tinggalkan komentar