Versi asli dari artikel ini terbit di Quanta Magazine.
Perusahaan AI asal Tiongkok, DeepSeek, meluncurkan chatbot bernama R1 awal tahun ini yang menarik perhatian besar. Sebagian besar fokusnya terkait fakta bahwa perusahaan yang relatif kecil dan tak dikenal ini mengklaim telah membangun chatbot yang setara kinerjanya dengan model dari perusahaan AI ternama dunia, namun hanya menggunakan sebagian kecil daya komputasi dan biaya. Akibatnya, saham banyak perusahaan teknologi Barat anjlok; Nvidia, yang menjual chip untuk menjalankan model AI terkemuka, kehilangan nilai saham dalam satu hari lebih besar dari perusahaan mana pun dalam sejarah.
Sebagian dari perhatian itu mengandung unsur tuduhan. Sumber-sumber menerangkan bahwa DeepSeek diduga memperoleh, tanpa izin, pengetahuan dari model proprietary o1 milik OpenAI dengan menggunakan teknik yang dikenal sebagai distilasi. Sebagian besar pemberitaan menyajikan kemungkinan ini sebagai kejutan bagi industri AI, mengisyaratkan bahwa DeepSeek telah menemukan cara baru yang lebih efisien untuk membangun AI.
Namun, distilasi, yang juga disebut knowledge distillation, adalah alat yang lazim digunakan dalam AI, sebuah subjek penelitian ilmu komputer yang telah ada selama satu dekade dan merupakan alat yang digunakan perusahaan teknologi besar pada model mereka sendiri. “Distilasi adalah salah satu alat terpenting yang dimiliki perusahaan saat ini untuk membuat model lebih efisien,” kata Enric Boix-Adsera, seorang peneliti yang mempelajari distilasi di Wharton School, University of Pennsylvania.
Pengetahuan Tersembunyi
Gagasan untuk distilasi bermula dari sebuah makalah tahun 2015 oleh tiga peneliti di Google, termasuk Geoffrey Hinton, yang disebut sebagai bapak baptis AI dan penerima Hadiah Nobel 2024. Saat itu, para peneliti sering menjalankan ensemble model—“banyak model yang direkatkan bersama,” kata Oriol Vinyals, seorang ilmuwan utama di Google DeepMind dan salah satu penulis makalah tersebut—untuk meningkatkan kinerjanya. “Tapi menjalankan semua model secara paralel sangatlah rumit dan mahal,” ujar Vinyals. “Kami tertarik dengan ide untuk mendistilasinya ke dalam satu model tunggal.”
Para peneliti berpikir mereka mungkin dapat membuat kemajuan dengan mengatasi kelemahan mencolok dalam algoritma pembelajaran mesin: Jawaban salah semuanya dianggap sama buruknya, terlepas dari seberapa salah jawaban tersebut. Dalam sebuah model klasifikasi gambar, misalnya, “mengacaukan anjing dengan rubah dihukum dengan cara yang sama seperti mengacaukan anjing dengan pizza,” kata Vinyals. Para peneliti menduga bahwa model ensemble memang mengandung informasi tentang jawaban salah mana yang kurang buruk dibandingkan lainnya. Mungkin sebuah model “siswa” yang lebih kecil dapat menggunakan informasi dari model “guru” yang besar untuk lebih cepat memahami kategori yang seharusnya digunakan untuk mengurutkan gambar. Hinton menyebutnya “dark knowledge” (pengetahuan tersembunyi), menggunakan analogi dengan materi gelap kosmologis.
Setelah mendiskusikan kemungkinan ini dengan Hinton, Vinyals mengembangkan cara untuk membuat model guru besar memberikan lebih banyak informasi tentang kategori gambar kepada model siswa yang lebih kecil. Kuncinya adalah memfokuskan pada “target lunak” (soft targets) dalam model guru—di mana model memberikan probabilitas untuk setiap kemungkinan, alih-alih jawaban tegas ini-atau-itu. Sebagai contoh, satu model menghitung bahwa terdapat kemungkinan 30 persen sebuah gambar menunjukkan anjing, 20 persen kucing, 5 persen sapi, dan 0,5 persen mobil. Dengan menggunakan probabilitas ini, model guru secara efektif mengungkapkan kepada siswa bahwa anjing cukup mirip dengan kucing, tidak terlalu berbeda dengan sapi, dan cukup berbeda dengan mobil. Para peneliti menemukan bahwa informasi ini akan membantu siswa mempelajari cara mengidentifikasi gambar anjing, kucing, sapi, dan mobil dengan lebih efisien. Model besar dan rumit dapat direduksi menjadi model yang lebih ramping dengan hampir tanpa kehilangan akurasi.
Pertumbuhan Eksplosif
Gagasan ini tidak langsung populer. Makalahnya ditolak oleh sebuah konferensi, dan Vinyals, yang putus asa, beralih ke topik lain. Tetapi distilasi muncul pada momen yang penting. Sekitar waktu ini, para insinyur menemukan bahwa semakin banyak data pelatihan yang mereka masukkan ke dalam jaringan saraf, semakin efektif jaringan tersebut menjadi. Ukuran model segera meledak, demikian juga kemampuannya, tetapi biaya untuk menjalankannya meningkat seiring dengan ukurannya.
Banyak peneliti beralih ke distilasi sebagai cara untuk membuat model yang lebih kecil. Pada tahun 2018, misalnya, peneliti Google meluncurkan model bahasa yang kuat disebut BERT, yang segera mulai digunakan perusahaan untuk membantu mengurai miliaran pencarian web. Tetapi BERT besar dan mahal untuk dijalankan, sehingga tahun berikutnya, pengembang lain mendistilasi versi yang lebih kecil dengan nama yang tepat, DistilBERT, yang menjadi widely used dalam bisnis dan penelitian. Distilasi secara bertahap menjadi ubiquitous, dan sekarang ditawarkan sebagai layanan oleh perusahaan seperti Google, OpenAI, dan Amazon. Makalah distilasi asli, yang masih hanya diterbitkan di server preprint arxiv.org, kini telah dikutip lebih dari 25.000 kali.
Mengingat distilasi memerlukan akses ke bagian dalam model guru, tidak mungkin bagi pihak ketiga untuk menyelinap mendistilasi data dari model closed-source seperti o1 milik OpenAI, seperti yang diduga dilakukan DeepSeek. Namun, sebuah model siswa masih dapat belajar cukup banyak dari model guru hanya dengan memberikan prompt pertanyaan tertentu kepada guru dan menggunakan jawabannya untuk melatih modelnya sendiri—sebuah pendekatan distilasi yang hampir Sokrates.
Sementara itu, peneliti lain terus menemukan aplikasi baru. Pada bulan Januari, lab NovaSky di UC Berkeley menunjukkan bahwa distilasi bekerja baik untuk melatih model penalaran rantai pemikiran (chain-of-thought reasoning), yang menggunakan “pemikiran” multi-langkah untuk menjawab pertanyaan rumit dengan lebih baik. Lab tersebut menyatakan bahwa model Sky-T1 mereka yang sepenuhnya open source berbiaya kurang dari $450 untuk dilatih, dan mencapai hasil yang mirip dengan model open source yang jauh lebih besar. “Kami benar-benar terkejut dengan seberapa baik distilasi bekerja dalam konteks ini,” kata Dacheng Li, seorang mahasiswa doktoral Berkeley dan ko-pemimpin siswa tim NovaSky. “Distilasi adalah teknik fundamental dalam AI.”
Cerita asli dicetak ulang dengan izin dari Quanta Magazine, publikasi editorial independen dari Simons Foundation yang misinya adalah meningkatkan pemahaman publik tentang sains dengan meliput perkembangan dan tren penelitian dalam matematika serta ilmu fisika dan kehidupan.