AI Tidak Benar-Benar ‘Bernalar’—Cara Tim Ini Membongkar Hype Industri

Pulse/Corbis via Getty Images

Ikuti ZDNET: Tambahkan kami sebagai sumber pilihan di Google.


Poin Penting ZDNET

  • Kita tidak sepenuhnya memahami cara kerja AI, sehingga kita menganggapnya memiliki kekuatan magis.
  • Klaim bahwa Gen AI dapat bernalar adalah "fatamorgana yang rapuh."
  • Kita harus selalu spesifik tentang apa yang dilakukan AI dan menghindari hiperbola.

    Sejak program kecerdasan buatan mulai memukau publik, para sarjana AI telah mengemukakan klaim tentang signifikansi teknologi ini, bahkan menegaskan prospek pemahaman layaknya manusia.

    Para sarjana ini berfilsafat karena bahkan ilmuwan yang menciptakan model AI seperti GPT-5 milik OpenAI tidak benar-benar memahami bagaimana program ini bekerja — tidak sepenuhnya.

    Juga: Altman dari OpenAI melihat ‘superintelligence’ sudah dekat – tetapi ia kurang detail

    ‘Kotak hitam’ AI dan mesin hype

    Program AI seperti LLM terkenal sebagai “kotak hitam.” Mereka mencapai banyak hal yang mengesankan, tetapi sebagian besar, kita tidak dapat mengamati semua yang mereka lakukan ketika menerima masukan, seperti perintah yang Anda ketik, dan menghasilkan keluaran, seperti makalah kuliah yang Anda minta atau sasran untuk novel baru Anda.

    Sebagai penggantinya, para ilmuwan telah menerapkan istilah-istilah kolokial seperti “penalaran” untuk menggambarkan cara program tersebut beroperasi. Dalam prosesnya, mereka telah tersirat atau secara terang-terangan menegaskan bahwa program tersebut dapat “berpikir,” “bernalar,” dan “mengetahui” dengan cara yang sama seperti manusia.

    Dalam dua tahun terakhir, retorika telah melampaui sains karena para eksekutif AI menggunakan hiperbola untuk memelintir apa yang sebenarnya hanyalah pencapaian rekayasa sederhana.

    Juga: Apa itu GPT-5 OpenAI? Inilah semua yang perlu Anda ketahui tentang model terbaru perusahaan

    Siaran pers OpenAI bulan September lalu yang mengumumkan model penalaran o1 mereka menyatakan bahwa, “Serupa dengan bagaimana manusia mungkin berpikir lama sebelum merespons pertanyaan sulit, o1 menggunakan rantai pemikiran ketika mencoba memecahkan masalah,” sehingga “o1 belajar mempertajam rantai pemikirannya dan menyempurnakan strategi yang digunakannya.”

    Hanya selangkah dari pernyataan yang mengantropomorfisasi itu menuju segala macam klaim liar, seperti komentar CEO OpenAI Sam Altman, pada bulan Juni, bahwa “Kita telah melewati cakrawala peristiwa; lepas landas telah dimulai. Kemanusiaan hampir membangun kecerdasan super digital.”

    (Keterangan: Ziff Davis, perusahaan induk ZDNET, mengajukan gugatan pada April 2025 terhadap OpenAI, dengan dalih telah melanggar hak cipta Ziff Davis dalam melatih dan mengoperasikan sistem AI-nya.)

    Reaksi balik dari penelitian AI

    Namun, ada reaksi balik yang tengah berkembang dari para ilmuwan AI yang membantah asumsi-asumsi kecerdasan mirip manusia melalui pengawasan teknis yang ketat.

    Dalam sebuah makalah yang diterbitkan bulan lalu di server pra-cetak arXiv dan belum ditinjau oleh sejawat, para penulis — Chengshuai Zhao dan rekan-rekannya di Arizona State University — membongkar klaim penalaran melalui eksperimen sederhana. Apa yang mereka simpulkan adalah bahwa “rantai pemikiran penalaran adalah fatamorgana yang rapuh,” dan itu “bukan mekanisme untuk inferensi logis yang genuin melainkan bentuk canggih dari pencocokan pola terstruktur.”

    Juga: Sam Altman mengatakan Singularitas sudah dekat – inilah alasannya

    Istilah “rantai pemikiran” (CoT) umumnya digunakan untuk menggambarkan aliran keluaran yang verbose yang Anda lihat ketika model penalaran besar, seperti GPT-o1 atau DeepSeek V1, menunjukkan kepada Anda cara mereka menyelesaikan suatu masalah sebelum memberikan jawaban akhir.

    Aliran pernyataan itu tidak sedalam atau berarti seperti kelihatannya, tulis Zhao dan tim. “Kesuksesan empiris dari penalaran CoT mengarah pada persepsi bahwa model bahasa besar (LLM) terlibat dalam proses inferensial yang disengaja,” tulis mereka.

    Tetapi, “Tubuh analisis yang berkembang mengungkapkan bahwa LLM cenderung mengandalkan semantik dan petunjuk permukaan daripada prosedur logis,” jelas mereka. “LLM membangun rantai logika superfisial berdasarkan asosiasi token yang dipelajari, sering kali gagal dalam tugas-tugas yang menyimpang dari heuristik akal sehat atau templat yang familiar.”

    Istilah “rantai token” adalah cara umum untuk merujuk pada serangkaian elemen yang dimasukkan ke dalam LLM, seperti kata atau karakter.

    Menguji apa yang sebenarnya dilakukan LLM

    Untuk menguji hipotesis bahwa LLM hanyalah pencocokan pola, bukan benar-benar bernalar, mereka melatih LLM open-source lama OpenAI, GPT-2 dari 2019, dengan memulai dari awal, sebuah pendekatan yang mereka sebut “alkimia data.”

    Arizona State University

    Model itu dilatih dari awal hanya untuk memanipulasi 26 huruf alfabet Inggris, “A, B, C,…dst.” Korpus yang disederhanakan itu memungkinkan Zhao dan tim menguji LLM dengan serangkaian tugas yang sangat sederhana. Semua tugas melibatkan memanipulasi urutan huruf, seperti, misalnya, menggeser setiap huruf sejumlah tempat tertentu, sehingga “APPLE” menjadi “EAPPL.”

    Juga: CEO OpenAI melihat perjuangan berat menuju GPT-5, potensi untuk perangkat keras konsumen jenis baru

    Menggunakan jumlah token yang terbatas, dan tugas-tugas yang terbatas, Zhao dan tim memvariasikan tugas mana yang diekspos model bahasa dalam data pelatihannya versus tugas mana yang hanya dilihat ketika model yang sudah jadi diuji, seperti, “Geser setiap elemen sebanyak 13 tempat.” Ini adalah tes apakah model bahasa dapat merasionalkan cara untuk melakukan bahkan ketika dihadapkan dengan tugas-tugas baru yang belum pernah dilihat sebelumnya.

    Mereka menemukan bahwa ketika tugas-tugas tersebut tidak ada dalam data pelatihan, model bahasa gagal mencapai tugas-tugas itu dengan benar menggunakan rantai pemikiran.

    Model AI tersebut mencoba menggunakan tugas-tugas yang ada dalam data pelatihannya, dan “penalaran” yang dihasilkannya terdengar baik, tetapi jawabannya ternyata salah.

    Seperti yang diungkapkan Zhao dan tim, “LLM mencoba menggeneralisasi jalur penalaran berdasarkan yang paling mirip […] yang dilihat selama pelatihan, yang mengarah ke jalur penalaran yang benar, namun jawaban yang keliru.”

    ## Spesifisitas untuk Melawan Hype

    Para penulis menarik beberapa pelajaran.

    Pertama: “Waspadai ketergantungan berlebihan dan kepercayaan diri yang palsu,” saran mereka, karena “kemampuan LLM untuk menghasilkan ‘nonsen yang fasih’ — rantai penalaran yang masuk akal tetapi cacat secara logis — bisa lebih menyesatkan dan merusak daripada jawaban yang salah secara terang-terangan, karena hal itu memproyeksikan aura keandalan yang palsu.”

    Selain itu, cobalah tugas-tugas yang secara eksplisit kecil kemungkinannya terkandung dalam data pelatihan agar model AI dapat diuji ketahanannya.

    Yang penting dari pendekatan Zhao dan tim adalah bahwa hal itu menembus hiperbola dan membawa kita kembali ke dasar-dasar memahami apa yang sebenarnya dilakukan AI.

    Ketika penelitian asli tentang chain-of-thought, “Chain-of-Thought Prompting Elicits Reasoning in Large Language Models,” dilakukan oleh Jason Wei dan rekan-rekannya di tim Google Brain milik Google pada tahun 2022 — penelitian yang sejak itu telah dikutip lebih dari 10.000 kali — para penulis tidak membuat klaim tentang penalaran yang sesungguhnya.

    Wei dan tim menyadari bahwa memerintahkan LLM untuk menyebutkan langkah-langkah dalam suatu masalah, seperti masalah kata aritmatika (“Jika ada 10 kue di toples, dan Sally mengambil satu, berapa banyak yang tersisa di toples?”) cenderung menghasilkan lebih banyak solusi yang benar, secara rata-rata.

    Mereka berhati-hati untuk tidak menyatakan kemampuan seperti manusia. “Meskipun chain of thought meniru proses pemikiran manusia yang bernalar, ini tidak menjawab apakah jaringan saraf sebenarnya ‘bernalar,’ yang kami biarkan sebagai pertanyaan terbuka,” tulis mereka saat itu.

    Sejak saat itu, klaim Altman dan berbagai siaran pers dari promoter AI semakin menekankan sifat penalaran seperti manusia menggunakan retorika yang kasual dan ceroboh yang tidak menghormati deskripsi teknis murni Wei dan tim.

    Karya Zhao dan tim adalah pengingat bahwa kita harus spesifik, bukan takhayul, tentang apa yang sebenarnya dilakukan mesin, dan menghindari klaim hiperbolik.

MEMBACA  Diskon Anti-Prime Day Terbaik Best Buy Mengurangi Hampir 50% Harga TV 55-Inch TCL 4K Ini