Nvidia membangun kerajaan AI-nya dengan GPU. Tapi taruhan $20 miliar mereka pada Groq menunjukkan perusahaan itu tidak yakin kalau GPU saja akan mendominasi fase AI paling penting selanjutnya: menjalankan model dalam skala besar, yang disebut inference.
Pertarungan untuk menang dalam inference AI tentu saja tentang ekonominya. Setelah model dilatih, setiap hal berguna yang dilakukannya—menjawab kueri, membuat kode, merekomendasikan produk, meringkas dokumen, menggerakkan chatbot, atau menganalisis gambar—terjadi selama inference. Itulah saatnya AI berubah dari biaya yang sudah terlanjur keluar menjadi layanan yang menghasilkan pendapatan, dengan semua tekanan untuk mengurangi biaya, memperkecil latency (lama waktu menunggu jawaban AI), dan meningkatkan efisiensi.
Tekanan itu tepatnya alasan mengapa inference telah menjadi medan perang industri berikutnya untuk keuntungan potensial—dan mengapa Nvidia, dalam kesepakatan yang diumumkan tepat sebelum liburan Natal, melisensi teknologi dari Groq, sebuah startup yang membuat chip dirancang khusus untuk inference AI yang cepat dan low-latency, dan mempekerjakan hampir seluruh timnya, termasuk CEO dan pendiri Jonathan Ross.
Inference adalah ‘revolusi industri’ AI
CEO Nvidia Jensen Huang sudah jelas tentang tantangan inference. Meski dia bilang Nvidia “sangat baik di setiap fase AI,” dia memberi tahu analis dalam panggilan pendapatan Q3 November lalu bahwa inference itu “sangat, sangat sulit.” Jauh dari kasus sederhana satu perintah masuk dan satu jawaban keluar, inference modern harus mendukung penalaran berkelanjutan, jutaan pengguna bersamaan, latency rendah terjamin, dan batasan biaya yang ketat. Dan agen AI, yang harus menangani banyak langkah, akan meningkatkan permintaan dan kompleksitas inference secara dramatis—serta risikonya jika salah.
“Orang pikir inference itu satu kali, jadi mudah. Siapa pun bisa masuk pasar seperti itu,” kata Huang. “Tapi ternyata itu yang paling sulit, karena berpikir, ternyata, cukup sulit.”
Dukungan Nvidia pada Groq menegaskan keyakinan itu, dan menandakan bahwa bahkan perusahaan yang mendominasi pelatihan AI pun sedang berjaga-jaga soal bagaimana ekonomi inference akhirnya akan berjalan.
Huang juga blak-blakan tentang betapa sentralnya inference bagi pertumbuhan AI. Dalam percakapan terbaru di BG2 Podcast, Huang bilang inference sudah menyumbang lebih dari 40% pendapatan terkait AI—dan dia memperkirakan itu “akan naik miliaran kali lipat.”
“Itu bagian yang kebanyakan orang belum sepenuhnya pahami,” kata Huang. “Inilah industri yang kita bicarakan. Inilah revolusi industri.”
Keyakinan CEO itu membantu menjelaskan mengapa Nvidia mau berjaga-jaga dengan agresif soal cara inference akan disampaikan, meski ekonomi dasarnya masih belum pasti.
Nvidia mau kuasai pasar inference
Nvidia berjaga-jaga untuk memastikan mereka punya tangan di semua bagian pasar, kata Karl Freund, pendiri dan analis utama di Cambrian-AI Research. “Ini sedikit seperti Meta yang mengakuisisi Instagram,” jelasnya. “Bukan karena mereka pikir Facebook buruk, mereka cuma tahu ada alternatif yang mereka ingin pastikan tidak bersaing dengan mereka.”
Itu, meski Huang sudah membuat klaim kuat tentang ekonomi platform Nvidia yang ada untuk inference. “Aku curiga mereka menemukan bahwa itu tidak diterima baik oleh klien seperti yang mereka harapkan, atau mungkin mereka lihat sesuatu dalam pendekatan berbasis memori chip yang dimiliki Groq dan perusahaan lain bernama D-Matrix,” kata Freund, merujuk pada startup chip AI cepat dan low-latency lain yang didukung Microsoft yang baru saja mengumpulkan $275 juta dengan valuasi $2 miliar.
Freund bilang langkah Nvidia ke Groq bisa mengangkat seluruh kategori. “Aku yakin D-Matrix adalah startup yang cukup senang sekarang, karena aku curiga putaran pendanaan berikutnya mereka akan dapat valuasi jauh lebih tinggi berkat [kesepakatan Nvidia-Groq],” katanya.
Eksekutif industri lain bilang ekonomi inference AI sedang berubah seiring AI bergerak melampaui chatbot ke sistem real-time seperti robot, drone, dan alat keamanan. Sistem-sistem itu tidak mampu menanggung penundaan karena mengirim data bolak-balik ke cloud, atau risiko bahwa daya komputasi tidak selalu tersedia. Sebaliknya, mereka lebih suka chip khusus seperti milik Groq daripada kumpulan GPU terpusat.
Behnam Bastani, CEO dan pendiri OpenInfer, yang fokus menjalankan inference AI dekat dengan tempat data dihasilkan—seperti di perangkat, sensor, atau server lokal daripada pusat data cloud jauh—mengatakan startupnya menargetkan aplikasi semacam ini di “tepi” (edge).
Dia tekankan, pasar inference masih baru. Dan Nvidia ingin menguasai pasar itu dengan kesepakatan Groq-nya. Dengan ekonomi inference yang masih belum pasti, dia bilang Nvidia coba memposisikan diri sebagai perusahaan yang mencakup seluruh tumpukan perangkat keras inference, daripada bertaruh pada satu arsitektur saja.
“Itu memposisikan Nvidia sebagai payung yang lebih besar,” katanya.