Kredit Gambar: Orla/iStock / Getty Images Plus via Getty Images
Ikuti ZDNET: Tambahkan kami sebagai sumber pilihan di Google.
—
Intisari ZDNET:
- TurboQuant dari Google dapat mengurangi penggunaan memori AI secara dramatis.
- TurboQuant merupakan respons terhadap biaya AI yang melambung tinggi.
- Hasil positifnya adalah membuat AI lebih terjangkau dengan menurunkan biaya inferensi.
—
Dengan biaya kecerdasan buatan yang melonjak akibat harga komponen komputer seperti memori yang meroket, Google pekan lalu merespons dengan sebuah inovasi teknis yang diusulkan bernama TurboQuant.
TurboQuant, yang dibahas oleh peneliti Google dalam sebuah posting blog, adalah momen DeepSeek AI lainnya, sebuah upaya mendalam untuk mengurangi biaya AI. Hal ini dapat memberikan manfaat berkelanjutan dengan mengurangi penggunaan memori AI, menjadikan model jauh lebih efisien.
Meski demikian, sebagaimana DeepSeek tidak menghentikan investasi besar-besaran dalam chip AI, pengamat mengatakan TurboQuant kemungkinan akan tetap mendorong pertumbuhan investasi AI. Ini adalah paradoks Jevons: membuat sesuatu lebih efisien justru berakhir meningkatkan penggunaan keseluruhan sumber daya tersebut.
Akan tetapi, TurboQuant merupakan pendekatan yang dapat membantu menjalankan AI secara lokal dengan mengurangi tuntutan perangkat keras dari model bahasa besar.
Lebih Banyak Memori, Lebih Banyak Biaya
Faktor biaya besar untuk AI saat ini—dan mungkin untuk masa mendatang yang dapat diprediksi—adalah penggunaan teknologi memori dan penyimpanan yang semakin besar. AI sangat lapar data, memperkenalkan ketergantungan pada memori dan penyimpanan yang belum pernah terjadi sebelumnya dalam sejarah komputasi.
TurboQuant, yang pertama kali dijelaskan oleh peneliti Google dalam sebuah makalah setahun lalu, menggunakan "kuantisasi" untuk mengurangi jumlah bit dan byte yang diperlukan untuk merepresentasikan data.
Kuantisasi adalah bentuk kompresi data yang menggunakan lebih sedikit bit untuk mewakili nilai yang sama. Dalam kasus TurboQuant, fokusnya adalah pada apa yang disebut "cache nilai-kunci" atau, untuk singkatnya, "KV cache", salah satu konsumen memori terbesar dalam AI.
Ketika Anda mengetik ke dalam chatbot seperti Gemini milik Google, AI harus membandingkan apa yang Anda ketik dengan repositori ukuran yang berfungsi sebagai semacam basis data.
Hal yang Anda ketik disebut query, dan itu dicocokkan dengan data yang disimpan dalam memori, disebut key, untuk menemukan kecocokan numerik. Pada dasarnya, itu adalah skor kesamaan. Key kemudian digunakan untuk mengambil dari memori kata-kata tepat yang harus dikembalikan kepada Anda sebagai respons AI, yang dikenal sebagai value.
Biasanya, setiap kali Anda mengetik, model AI harus menghitung key dan value baru, yang dapat memperlambat seluruh operasi. Untuk mempercepat, mesin mempertahankan cache key-value dalam memori untuk menyimpan key dan value yang baru saja digunakan.
Cache ini kemudian menjadi masalahnya sendiri: semakin banyak Anda bekerja dengan model, semakin banyak memori yang digunakan cache key-value. "Penskalaan ini merupakan hambatan signifikan dalam hal penggunaan memori dan kecepatan komputasi, terutama untuk model konteks panjang," menurut penulis utama Google Amir Zandieh dan rekan-rekannya.
Memperburuk keadaan, model AI semakin dibangun dengan key dan value yang lebih kompleks, yang dikenal sebagai context window. Itu memberi model lebih banyak opsi pencarian, berpotensi meningkatkan akurasi. Gemini 3, versi saat ini, membuat lompatan besar dalam context window menjadi satu juta token. Model mutakhir sebelumnya seperti GPT-4 dari OpenAI hanya memiliki context window 32.768 token. Context window yang lebih besar juga meningkatkan jumlah memori yang dikonsumsi oleh cache key-value.
Mempercepat Kuantisasi untuk Waktu-Nyata
Solusi untuk cache KV yang mengembang itu adalah mengkuantisasi key dan value agar keseluruhannya memakan lebih sedikit ruang. Zandieh dan tim mengklaim dalam posting blog mereka bahwa kompresi data dengan TurboQuant "sangat besar". "Mengurangi ukuran cache KV tanpa mengorbankan akurasi sangat penting," tulis mereka.
Kuantisasi telah digunakan oleh Google dan lainnya selama bertahun-tahun untuk mengecilkan jaringan saraf. Yang baru dari TurboQuant adalah ia dimaksudkan untuk mengkuantisasi secara real-time. Pendekatan kompresi sebelumnya mengurangi ukuran jaringan saraf pada waktu kompilasi, sebelum dijalankan dalam produksi.
Itu tidak cukup baik, diamati Zandieh. Cache KV adalah ringkasan hidup dari apa yang dipelajari pada "waktu inferensi", ketika orang mengetik ke bot AI, dan key serta value berubah. Jadi, kuantisasi harus terjadi cukup cepat dan akurat untuk menjaga cache tetap kecil sambil juga tetap mutakhir. Kata "turbo" dalam TurboQuant menyiratkan bahwa ini jauh lebih cepat daripada kuantisasi waktu-kompilasi tradisional.
Pendekatan Dua Tahap
TurboQuant memiliki dua tahap. Pertama, query dan key dikompresi. Ini dapat dilakukan secara geometris karena query dan key adalah vektor data yang dapat digambarkan pada grafik X-Y sebagai garis, yang dapat diputar pada grafik tersebut. Mereka menyebut rotasi ini "PolarQuant". Dengan secara acak mencoba rotasi berbeda dengan PolarQuant dan kemudian mengambil garis asli, mereka menemukan jumlah bit yang lebih kecil yang masih mempertahankan akurasi.
Seperti yang mereka ungkapkan, "PolarQuant bertindak sebagai jembatan kompresi berdaya tinggi, mengubah input Kartesian menjadi ‘singkatan’ Polar yang ringkas untuk penyimpanan dan pemrosesan."
Vektor terkompresi masih menghasilkan kesalahan saat perbandingan dilakukan antara query dan key, yang dikenal sebagai "produk dalam" dari dua vektor. Untuk memperbaikinya, mereka menggunakan metode kedua, QJL, yang diperkenalkan oleh Zandieh pada tahun 2024. Orla/ iStock / Getty Images Plus via Getty Images Pendekatan ini menjaga satu dari dua vektor dalam keadaan aslinya, sehingga perkalian vektor terkompresi (terkuantisasi) dengan vektor yang tak terkompresi berfungsi sebagai uji coba untuk meningkatkan akurasi perkalian tersebut.
Mereka menguji TurboQuant dengan menerapkannya pada model AI Llama 3.1-8B sumber terbuka dari Meta Platforms, dan menemukan bahwa "TurboQuant mencapai hasil downstream yang sempurna di semua tolok ukur sembari mengurangi ukuran memori key value setidaknya 6x" — sebuah reduksi enam kali lipat dari kebutuhan KV cache.
Metode ini juga berbeda dari cara lain untuk mengompresi KV cache, seperti pendekatan yang diambil DeepSeek tahun lalu, yang membatasi pencarian key dan value untuk mempercepat inferensi.
Dalam tes lain, menggunakan model sumber terbuka Gemma dari Google dan model dari startup AI Prancis Mistral, "TurboQuant terbukti dapat mengkuantisasi key-value cache hingga hanya 3 bit tanpa memerlukan pelatihan atau fine-tuning dan tanpa mengorbankan akurasi model," tulis mereka, "sambil juga mencapai waktu proses yang lebih cepat dibandingkan LLM asli (Gemma dan Mistral)."
"Menerapkannya sangat efisien dan hanya menghasilkan overhead waktu proses yang dapat diabaikan," kata mereka.
Apakah AI Akan Menjadi Lebih Murah?
Zandieh dan tim memperkirakan TurboQuant akan berdampak signifikan pada penggunaan produksi inferensi AI. "Seiring AI semakin terintegrasi ke semua produk, dari LLM hingga pencarian semantik, penelitian mendasar dalam kuantisasi vektor ini akan menjadi lebih kritis dari sebelumnya," tulis mereka.
Namun, apakah ini benar-benar akan mengurangi biaya AI? Iya dan tidak.
Di era AI yang agenitif, dengan program seperti perangkat lunak OpenClaw yang beroperasi secara otonom, ada banyak komponen AI di luar sekadar KV cache. Penggunaan memori lainnya, seperti mengambil dan menyimpan catatan basis data, pada akhirnya akan memengaruhi efisiensi agen dalam jangka panjang.
Mereka yang mengikuti dunia chip AI pekan lalu berpendapat bahwa sama seperti efisiensi DeepSeek AI tidak memperlambat investasi AI tahun lalu, TurboQuant pun tidak akan melakukannya.
Vivek Arya, seorang bankir Merrill Lynch yang mengikuti chip AI, menulis kepada kliennya yang khawatir tentang pembuat DRAM Micron Technology bahwa TurboQuant hanya akan membuat pemanfaatan AI lebih efisien. "Peningkatan efisiensi memori 6x kemungkinan akan menghasilkan peningkatan akurasi (ukuran model) dan/atau panjang konteks (alokasi KV cache) 6x, bukannya penurunan memori 6x," tulis Arya.
Yang dapat dilakukan TurboQuant, bagaimanapun, adalah membuat beberapa instansi AI individual lebih ekonomis, khususnya untuk deployment lokal.
Misalnya, KV cache yang membengkak dan context window yang lebih panjang mungkin terbukti bukan beban besar saat menjalankan beberapa model AI dengan anggaran hardware terbatas. Ini akan menjadi kelegaan bagi pengguna OpenClaw yang menginginkan MacBook Neo atau Mac mini mereka berfungsi sebagai server AI lokal berbiaya rendah.