Versi asli dari cerita ini muncul di Majalah Quanta. Dua tahun yang lalu, dalam sebuah proyek yang disebut sebagai benchmark Beyond the Imitation Game, atau BIG-bench, 450 peneliti menyusun daftar 204 tugas yang dirancang untuk menguji kemampuan model bahasa besar, yang menggerakkan chatbot seperti ChatGPT. Pada sebagian besar tugas, kinerja meningkat secara dapat diprediksi dan lancar seiring dengan meningkatnya ukuran model – semakin besar modelnya, semakin baik hasilnya. Tetapi pada tugas-tugas lain, lonjakan kemampuan tidaklah lancar. Kinerja tetap berada dekat nol untuk sementara waktu, kemudian tiba-tiba melonjak. Studi lain menemukan lonjakan kemampuan serupa.
Para penulis menggambarkan ini sebagai perilaku “terobosan”; peneliti lain telah menyamakannya dengan transisi fase dalam fisika, seperti ketika air cair membeku menjadi es. Dalam sebuah makalah yang diterbitkan pada Agustus 2022, para peneliti mencatat bahwa perilaku-perilaku ini tidak hanya mengejutkan tetapi juga tidak dapat diprediksi, dan bahwa hal ini seharusnya memengaruhi percakapan yang berkembang tentang keamanan, potensi, dan risiko kecerdasan buatan. Mereka menyebut kemampuan-kemampuan ini sebagai “emergen,” sebuah kata yang menggambarkan perilaku kolektif yang hanya muncul setelah suatu sistem mencapai tingkat kompleksitas yang tinggi.
Namun, hal-hal mungkin tidak sesederhana itu. Sebuah makalah baru oleh trio peneliti di Universitas Stanford mengajukan bahwa munculnya tiba-tiba kemampuan-kemampuan ini hanyalah konsekuensi dari cara peneliti mengukur kinerja LLM. Mereka berpendapat bahwa kemampuan-kemampuan tersebut tidaklah tidak dapat diprediksi atau tiba-tiba. “Transisi ini jauh lebih dapat diprediksi daripada yang orang kira,” kata Sanmi Koyejo, seorang ilmuwan komputer di Stanford dan penulis senior makalah tersebut. “Klaim kuat tentang emergen memiliki hubungan sama banyaknya dengan cara kita memilih untuk mengukur sebagaimana dengan apa yang dilakukan model-model itu.”
Kita baru saja melihat dan mempelajari perilaku ini karena seberapa besar model-model ini telah menjadi. Model bahasa besar melatih diri dengan menganalisis kumpulan data teks yang sangat besar – kata-kata dari sumber-sumber online termasuk buku-buku, pencarian web, dan Wikipedia – dan menemukan hubungan antara kata-kata yang sering muncul bersama. Ukuran ini diukur dalam hal parameter, kasarnya analog dengan semua cara kata-kata bisa terhubung. Semakin banyak parameter, semakin banyak hubungan yang bisa ditemukan oleh LLM. GPT-2 memiliki 1,5 miliar parameter, sementara GPT-3.5, LLM yang menggerakkan ChatGPT, menggunakan 350 miliar. GPT-4, yang debut pada Maret 2023 dan sekarang menjadi dasar dari Microsoft Copilot, dilaporkan menggunakan 1,75 triliun.
Pertumbuhan yang cepat ini telah membawa lonjakan luar biasa dalam kinerja dan efektivitas, dan tidak ada yang mempertanyakan bahwa LLM yang cukup besar dapat menyelesaikan tugas-tugas yang tidak dapat diselesaikan oleh model-model yang lebih kecil, termasuk untuk tugas-tugas yang tidak dilatih. Trio di Stanford yang menilai emergen sebagai “khayalan” mengakui bahwa LLM menjadi lebih efektif seiring dengan mereka membesar; sebenarnya, kompleksitas tambahan dari model-model yang lebih besar seharusnya membuatnya mungkin untuk lebih baik dalam masalah-masalah yang lebih sulit dan beragam. Tetapi mereka berpendapat bahwa apakah peningkatan ini terlihat lancar dan dapat diprediksi atau kasar dan tajam hasil dari pilihan metrik – atau bahkan kekurangan contoh uji – bukan dari cara kerja model tersebut.