Distilasi Bisa Membuat Model AI Lebih Kecil dan Lebih Murah

Versi asli dari artikel ini diterbitkan dalam Quanta Magazine.

Perusahaan AI asal Tiongkok, DeepSeek, meluncurkan chatbot bernama R1 awal tahun ini yang menuai perhatian sangat besar. Sebagian besar perhatian tersebut berfokus pada fakta bahwa sebuah perusahaan yang relatif kecil dan kurang dikenal mengklaim telah membangun chatbot yang setara performanya dengan model dari perusahaan AI ternama dunia, namun hanya menggunakan sebagian kecil daya komputasi dan biaya. Akibatnya, saham banyak perusahaan teknologi Barat anjlok; Nvidia, yang menjual chip untuk menjalankan model AI terdepan, kehilangan nilai saham dalam satu hari lebih banyak daripada perusahaan mana pun dalam sejarah.

Sebagian dari perhatian itu mengandung unsur tuduhan. Sejumlah sumber menyatakan bahwa DeepSeek telah memperoleh, tanpa izin, pengetahuan dari model proprietari o1 milik OpenAI dengan menggunakan teknik yang dikenal sebagai distilasi. Sebagian besar pemberitaan menggambarkan kemungkinan ini sebagai sebuah kejutan bagi industri AI, mengisyaratkan bahwa DeepSeek telah menemukan cara baru yang lebih efisien untuk membangun AI.

Namun, distilasi, atau disebut juga knowledge distillation, sebenarnya adalah alat yang sangat umum digunakan dalam AI, merupakan subjek penelitian ilmu komputer yang sudah ada sejak satu dekade lalu dan merupakan alat yang digunakan perusahaan teknologi besar pada model mereka sendiri. “Distilasi adalah salah satu alat terpenting yang dimiliki perusahaan saat ini untuk membuat model lebih efisien,” kata Enric Boix-Adsera, seorang peneliti yang mempelajari distilasi di Wharton School, University of Pennsylvania.

Pengetahuan Tersembunyi

Gagasan distilasi berawal dari sebuah makalah tahun 2015 oleh tiga peneliti di Google, termasuk Geoffrey Hinton, yang disebut sebagai bapak baptis AI dan seorang peraih Nobel 2024. Saat itu, para peneliti sering menjalankan ensemble model—“banyak model yang digabungkan,” ujar Oriol Vinyals, ilmuwan utama di Google DeepMind dan salah satu penulis makalah tersebut—“untuk meningkatkan performa mereka. Namun, menjalankan semua model secara paralel sangatlah rumit dan mahal,” kata Vinyals. “Kami tertarik dengan ide untuk mendistilasinya ke dalam satu model tunggal.”

“Distilasi adalah salah satu alat terpenting yang dimiliki perusahaan saat ini untuk membuat model lebih efisien.”

Enric Boix-Adsera

Para peneliti berpikir mereka dapat membuat kemajuan dengan mengatasi kelemahan mencolok dalam algoritma pembelajaran mesin: Semua jawaban salah dianggap sama buruknya, terlepas dari seberapa salah jawaban tersebut. Dalam model klasifikasi gambar, misalnya, “meng混淆 (mengacaukan) anjing dengan rubah dihukum dengan cara yang sama seperti mengacaukan anjing dengan pizza,” kata Vinyals. Para peneliti menduga bahwa model ensemble memang mengandung informasi tentang jawaban salah mana yang tidak terlalu buruk dibandingkan lainnya. Mungkin sebuah model “siswa” yang lebih kecil dapat menggunakan informasi dari model “guru” yang besar untuk lebih cepat memahami kategori yang seharusnya digunakan untuk mengurutkan gambar. Hinton menyebutnya “dark knowledge” (pengetahuan gelap), dengan analogi terhadap materi gelap kosmologis.

MEMBACA  Dyson mengungkapkan headphone OnTrac yang sangat dapat disesuaikan

Setelah mendiskusikan kemungkinan ini dengan Hinton, Vinyals mengembangkan cara untuk membuat model guru yang besar memberikan lebih banyak informasi tentang kategori gambar kepada model siswa yang lebih kecil. Kuncinya adalah memfokuskan pada “target lunak” dalam model guru—di mana model memberikan probabilitas untuk setiap kemungkinan, alih-alih jawaban tegas ini-atau-itu. Sebagai contoh, satu model menghitung bahwa terdapat kemungkinan 30 persen sebuah gambar menunjukkan anjing, 20 persen kucing, 5 persen sapi, dan 0,5 persen mobil. Dengan menggunakan probabilitas ini, model guru secara efektif mengungkapkan kepada siswa bahwa anjing cukup mirip dengan kucing, tidak terlalu berbeda dengan sapi, dan cukup berbeda dengan mobil. Para peneliti menemukan bahwa informasi ini akan membantu siswa mempelajari cara mengidentifikasi gambar anjing, kucing, sapi, dan mobil dengan lebih efisien. Model besar dan rumit dapat direduksi menjadi model yang lebih ramping dengan hampir tidak ada kehilangan akurasi.

Pertumbuhan Eksplosif

Gagasan tersebut tidak langsung populer. Makalahnya ditolak oleh sebuah konferensi, dan Vinyals, yang putus asa, beralih ke topik lain. Namun distilasi muncul pada momen yang penting. Sekitar waktu ini, para insinyur menemukan bahwa semakin banyak data pelatihan yang dimasukkan ke dalam jaringan saraf, semakin efektif jaringan tersebut menjadi. Ukuran model segera meledak, demikian pula kemampuannya, tetapi biaya untuk menjalankannya meningkat seiring dengan ukurannya.

Banyak peneliti beralih ke distilasi sebagai cara untuk membuat model yang lebih kecil. Pada tahun 2018, misalnya, para peneliti Google meluncurkan model bahasa yang kuat bernama BERT, yang segera mulai digunakan perusahaan untuk membantu mengurai miliaran pencarian web. Tetapi BERT besar dan mahal untuk dijalankan, sehingga tahun berikutnya, pengembang lain mendistilasi versi yang lebih kecil dengan nama yang masuk akal, DistilBERT, yang menjadi sangat digunakan dalam bisnis dan penelitian. Distilasi secara bertahap menjadi ada di mana-mana, dan kini ditawarkan sebagai layanan oleh perusahaan seperti Google, OpenAI, dan Amazon. Makalah distilasi asli, yang masih hanya diterbitkan di server pracetak arxiv.org, kini telah dikutip lebih dari 25.000 kali.

MEMBACA  Wifi Penerbangan yang Lebih Baik Akan Datang. United Memasang Starlink di Pesawat Pertamanya

Mengingat distilasi memerlukan akses ke bagian dalam model guru, tidak mungkin bagi pihak ketiga untuk menyelinap dan mendistilasi data dari model sumber tertutup seperti o1 milik OpenAI, seperti yang diduga dilakukan DeepSeek. Namun demikian, sebuah model siswa masih dapat belajar banyak dari model guru hanya dengan memberikan prompt pertanyaan tertentu kepada guru dan menggunakan jawabannya untuk melatih modelnya sendiri—sebuah pendekatan distilasi yang hampir Sokrates.

Sementara itu, peneliti lain terus menemukan aplikasi baru. Pada bulan Januari, laboratorium NovaSky di UC Berkeley menunjukkan bahwa distilasi bekerja dengan baik untuk melatih model penalaran rantai pemikiran, yang menggunakan “pemikiran” multi-langkah untuk menjawab pertanyaan rumit dengan lebih baik. Laboratorium tersebut menyatakan bahwa model Sky-T1 mereka yang sepenuhnya sumber terbuka berbiaya kurang dari $450 untuk dilatih, dan mencapai hasil yang mirip dengan model sumber terbuka yang jauh lebih besar. “Kami sungguh terkejut dengan seberapa baik distilasi bekerja dalam setting ini,” kata Dacheng Li, seorang mahasiswa doktoral Berkeley dan ko-pimpinan siswa tim NovaSky. “Distilasi adalah teknik fundamental dalam AI.”


Artikel asli dicetak ulang dengan izin dari Quanta Magazine, publikasi independen editorial dari Simons Foundation yang misinya adalah meningkatkan pemahaman publik tentang sains dengan meliput perkembangan dan tren penelitian dalam matematika serta ilmu fisika dan kehidupan.