Insinyur Apple Tunjukkan Betapa Rapuhnya ‘Pemikiran’ Kecerdasan Buatan

Untuk beberapa waktu sekarang, perusahaan seperti OpenAI dan Google telah mempromosikan kemampuan “penalaran” canggih sebagai langkah besar berikutnya dalam model kecerdasan buatan terbaru mereka. Namun, sebuah studi baru dari enam insinyur Apple menunjukkan bahwa “penalaran” matematika yang ditampilkan oleh model bahasa besar yang canggih bisa sangat rapuh dan tidak dapat diandalkan dalam menghadapi perubahan yang sepele pada masalah benchmark umum. Kerapuhan yang disorot dalam hasil baru ini membantu mendukung penelitian sebelumnya yang menyarankan bahwa penggunaan LLMs dalam pencocokan pola probabilitas kurang memahami konsep-konsep yang mendasari yang diperlukan untuk kemampuan penalaran matematika yang benar-benar dapat diandalkan. “LLMs saat ini tidak mampu melakukan penalaran logis yang sejati,” para peneliti berspekulasi berdasarkan hasil ini. “Sebaliknya, mereka mencoba untuk mereplikasi langkah-langkah penalaran yang diamati dalam data pelatihan mereka.” Campur Aduk Dalam “GSM-Simbolik: Memahami Batasan Penalaran Matematika dalam Model Bahasa Besar” – saat ini tersedia sebagai makalah pra-cetak – enam peneliti Apple memulai dengan kumpulan tes standar GSM8K yang terdiri dari lebih dari 8.000 masalah matematika tingkat sekolah dasar, yang sering digunakan sebagai benchmark untuk kemampuan penalaran kompleks LLMs modern. Mereka kemudian mengambil pendekatan baru dengan memodifikasi sebagian dari set tes itu untuk dinamis menggantikan beberapa nama dan nomor dengan nilai-nilai baru – sehingga pertanyaan tentang Sophie mendapatkan 31 balok bangunan untuk keponakannya dalam GSM8K bisa menjadi pertanyaan tentang Bill mendapatkan 19 balok bangunan untuk saudaranya dalam evaluasi GSM-Simbolik baru. Pendekatan ini membantu menghindari “kontaminasi data” yang dapat terjadi karena pertanyaan GSM8K statis yang dimasukkan langsung ke dalam data pelatihan model AI. Pada saat yang sama, perubahan-perubahan ini tidak mengubah kesulitan penalaran matematika sebenarnya sama sekali, yang berarti model seharusnya secara teoritis berperforma sama baiknya saat diuji pada GSM-Simbolik seperti GSM8K. Sebaliknya, ketika para peneliti menguji lebih dari 20 LLM terkini pada GSM-Simbolik, mereka menemukan rata-rata akurasi menurun di seluruh papan perbandingan dibandingkan dengan GSM8K, dengan penurunan kinerja antara 0,3 persen dan 9,2 persen, tergantung pada modelnya. Hasilnya juga menunjukkan variasi tinggi di antara 50 pengujian terpisah GSM-Simbolik dengan nama dan nilai yang berbeda. Celah hingga 15 persen akurasi antara pengujian terbaik dan terburuk umum dalam satu model, dan entah mengapa, mengubah angka cenderung menghasilkan akurasi yang lebih buruk daripada mengubah nama. Jenis variasi ini – baik dalam berbagai pengujian GSM-Simbolik yang berbeda maupun dibandingkan dengan hasil GSM8K – lebih dari sedikit mengejutkan karena, seperti yang dicatat para peneliti, “langkah-langkah penalaran keseluruhan yang diperlukan untuk menyelesaikan pertanyaan tetap sama.” Fakta bahwa perubahan yang sangat kecil menyebabkan hasil yang sangat bervariabel menurut para peneliti menunjukkan bahwa model-model tersebut tidak melakukan penalaran “formal” tetapi “mencoba untuk melakukan jenis pencocokan pola dalam distribusi, menyelaraskan pertanyaan yang diberikan dan langkah-langkah solusi dengan yang serupa yang terlihat dalam data pelatihan.” Jangan Terpikat Namun, variasi keseluruhan yang ditunjukkan untuk tes GSM-Simbolik seringkali relatif kecil dalam skema besar. ChatGPT-4o dari OpenAI, misalnya, turun dari akurasi 95,2 persen pada GSM8K menjadi 94,9 persen yang masih mengesankan pada GSM-Simbolik. Itu adalah tingkat keberhasilan yang cukup tinggi menggunakan kedua benchmark, terlepas dari apakah model itu sendiri menggunakan penalaran “formal” di balik layar (meskipun total akurasi untuk banyak model turun secara tajam ketika para peneliti menambahkan hanya satu atau dua langkah logis tambahan ke masalah-masalah). Namun, LLM yang diuji jauh lebih buruk, meskipun, ketika para peneliti Apple memodifikasi benchmark GSM-Simbolik dengan menambahkan “pernyataan yang tampaknya relevan tetapi pada akhirnya tidak berarti” ke pertanyaan. Untuk himpunan benchmark “GSM-NoOp” ini (singkatan dari “tidak ada operasi”), pertanyaan tentang berapa banyak kiwi yang diambil seseorang selama beberapa hari mungkin dimodifikasi untuk menyertakan detail insidental bahwa “lima di antaranya [kiwi] agak lebih kecil dari rata-rata.” Menambahkan red herring ini mengakibatkan apa yang disebut para peneliti sebagai “penurunan kinerja yang sangat drastis” dalam akurasi dibandingkan dengan GSM8K, berkisar dari 17,5 persen hingga 65,7 persen, tergantung pada model yang diuji. Penurunan akurasi yang besar ini menyoroti batasan inherent dalam menggunakan “pencocokan pola” sederhana untuk “mengubah pernyataan menjadi operasi tanpa benar-benar memahami maknanya,” tulis para peneliti.

MEMBACA Kecerdasan Buatan untuk Kebaikan Sosial: Perlukah Campur Tangan Manusia?