Nikolas Kokovlis/NurPhoto via Getty Images
Ikuti ZDNET: Tambahkan kami sebagai sumber pilihan di Google.
**Intisari ZDNET**
– DeepSeek meluncurkan model AI baru yang fokus pada efisiensi biaya.
– Inovasi utamanya adalah pengurangan komputasi untuk menjalankan *attention*.
– Inovasi ini bukanlah revolusioner; melainkan evolusioner.
Startup kecerdasan buatan asal Tiongkok, DeepSeek AI, yang menggemparkan dunia pada bulan Januari dengan klaim efisiensi biaya yang dramatis untuk AI generatif, kembali dengan terobosan terbaru dalam penggunaan teknologinya untuk menekan harga komputasi.
Minggu lalu, DeepSeek meluncurkan penelitian terkininya, DeepSeek-V3.2-Exp. Pada blog perusahaan, perusahaan tersebut mengklaim bahwa model baru ini dapat memotong biaya pembuatan prediksi, yang dikenal sebagai *inferensi*, hingga 75%, dari $1,68 per juta *token* menjadi 42 sen.
Juga: DeepSeek mungkin akan mengguncang dunia AI lagi – inilah yang kami ketahui
Seperti halnya pada bulan Januari, DeepSeek memanfaatkan teknik dalam desain *neural net* gen AI, yang merupakan bagian dari pendekatan luas dalam bentuk AI *deep-learning*, untuk menyedot lebih banyak dari *chip* komputer dengan mengeksploitasi fenomena yang dikenal sebagai “sparsity” atau *kelangkaan*.
Keajaiban Sparsity
*Sparsity* ibarat tombol ajaib yang menemukan kecocokan terbaik untuk model AI Anda dan komputasi yang tersedia.
*Sparsity* hadir dalam berbagai bentuk. Terkadang, ini melibatkan penghapusan data yang tidak secara material mempengaruhi keluaran model AI. Prinsip ekonomi yang sama berlaku untuk setiap generasi baru komputer pribadi: hasil yang lebih baik dengan biaya yang sama, atau hasil yang sama dengan biaya lebih rendah.
Juga: Apa itu sparsity? Rahasia DeepSeek AI, diungkap oleh peneliti Apple
Dalam pekerjaan sebelumnya, DeepSeek menggunakan pendekatan *sparsity* dengan mematikan sebagian besar “bobot” atau “parameter” *jaringan saraf* untuk mengurangi total biaya komputasi.
Dalam karya baru ini, seperti dirinci dalam makalah teknis yang diposting di GitHub oleh peneliti DeepSeek, kuncinya adalah melatih ulang *neural net* untuk hanya memperhatikan sebagian kecil dari data dalam data pelatihannya.
Memperhatikan dengan Lebih Baik
Salah satu operasi komputasi termahal dalam melatih *neural network* untuk aplikasi, seperti *chatbot*, adalah apa yang dikenal sebagai mekanisme “*attention*”. *Attention* membandingkan setiap kata yang Anda ketik dengan kata-kata sebelumnya, yang dikenal sebagai *konteks*, dan dengan kosakata kata-kata yang dimiliki model AI dalam memorinya.
Istilah teknis untuk apa yang Anda ketik di *prompt* adalah “*query*”, dan kata-kata untuk dibandingkan, atau yang disimpan dalam memori, dikenal sebagai “*keys*”. Ketika mekanisme *attention* menemukan kecocokan antara *query* Anda dan *key* yang disimpan, ia dapat memilih apa yang disebut “*value*” dari kosakata untuk dikeluarkan sebagai kata atau kata-kata berikutnya.
Juga: Perusahaan membuat kesalahan yang sama dengan AI seperti yang Tesla lakukan dengan robot
Istilah “kata” di sini adalah singkatan dari apa yang terjadi di balik layar. Seperti halnya semua model AI, program DeepSeek mengubah kata, fragmen kata, huruf, dan tanda baca menjadi “*token*”, yang merupakan objek atomik yang diberi nilai numerik ketika disimpan dalam kosakata perusahaan teknologi tersebut.
Operasi *attention* perlu membandingkan skor numerik dari *token query* dengan setiap *token key*, yang dilakukannya melalui *perkalian matriks*. Seiring dengan bertambahnya ukuran *token* yang ditangani oleh model — dan karena lebih banyak “*konteks*”, *token* terkini, digunakan — biaya komputasi tumbuh secara eksponensial.
Sebagai pendekatan alternatif, para peneliti mengambil versi sebelumnya dari model AI, DeepSeek-V3.1 “Terminus”, dan menambahkan apa yang mereka sebut “*lightning indexer*”.
Dalam prosedur yang dikenal sebagai “*sparse training*”, mereka melatih secara terpisah baik model V3.1 maupun *lightning indexer* dari awal. Bagian V3.1 memiliki mekanisme *attention* normal. *Lighting indexer* tidak memilikinya dan malah dilatih untuk menemukan subset *token* yang jauh lebih kecil yang jauh lebih mungkin relevan dari antara seluruh kosakata *token*.
Serangan Kilat
Inti dari pendekatan ini adalah, dengan sebuah subset, *indexer* dapat mengurangi massa pencarian *query-key* pada saat prediksi, hanya menggunakan kelompok terpilih, dan dengan demikian mengonsumsi lebih sedikit daya komputasi setiap kali prediksi perlu dibuat.
“Efisiensi komputasinya luar biasa,” kata para penulis penelitian tentang *indexer* tersebut.
Hasil dari *lightning indexer* adalah bahwa pendekatan *sparsity* mereka, yang DeepSeek sebut DeepSeek Sparse Attention, “memerlukan komputasi yang jauh lebih sedikit” dalam tes mereka terhadap V3.1, dan menghasilkan “percepatan *end-to-end* yang signifikan dalam skenario *konteks panjang*.”
Selain itu, para penulis mengatakan: “Kami tidak mengamati penurunan kinerja yang substansial dibandingkan dengan DeepSeek-V3.1-Terminus, baik pada tugas *konteks pendek* maupun *panjang*” dalam hal akurasi.
Perlu diingat, ini bukan hanya tentang *sparsity*. Ada beberapa penyesuaian lain yang mereka gunakan, termasuk melatih V3.2 pada data tugas spesifik domain, seperti untuk masalah matematika dan pengkodean.
Para penulis mengatakan bahwa pengujian dunia nyata yang lebih ekstensif diperlukan dan sedang berlangsung.
Evolusioner Bukan Revolusioner
Mengingat *hype* yang telah mengelilingi DeepSeek sejak Januari, penting untuk diingat bahwa *lightning index* dan DeepSeek Sparse Attention hanyalah tawaran terbaru dalam tradisi panjang eksploitasi *sparsity*, seperti yang saya tunjukkan dalam artikel sebelumnya.
Selama bertahun-tahun, para peneliti secara khusus telah mengeksplorasi cara untuk mengurangi beban komputasi dari perhitungan *key-value*. Telah ada banyak varian *attention* yang digunakan untuk mengurangi biaya *query-key*, yang menyebabkan para peneliti mengembangkan taksonomi.
Metode *attention* asli disebut sebagai “*multi-head attention*”. Pendekatan lain telah berupa “*multi-query attention*”, “*grouped-query attention*”, dan “*flash attention*”. DeepSeek bahkan memiliki merek *attention* sendiri di v3.1, yang mereka pertahankan dengan V3.2, disebut “*multi-head latent attention*”, sebuah pendekatan yang membawa manfaat untuk 3.1.
Mengingat telah ada, dan kemungkinan akan terus ada, inovasi terhadap mekanisme *attention* dari banyak pihak, inovasi DeepSeek ini terlihat lebih evolusioner daripada revolusioner.
Dapatkan cerita teratas di pagi hari di kotak masuk Anda setiap hari dengan newsletter Tech Today kami.