Chip AI H100 Nvidia yang sangat dibutuhkan telah menjadikannya perusahaan multitriliun dolar, yang mungkin bernilai lebih dari Alphabet dan Amazon, dan pesaing-pesaingnya telah berjuang untuk mengejar. Tetapi mungkin Nvidia akan memperluas keunggulannya – dengan GPU Blackwell B200 dan “superchip” GB200 yang baru.
CEO Nvidia, Jensen Huang, memegang GPU barunya di sebelah kiri, berdampingan dengan H100 di sebelah kanan, dari siaran langsung GTC. Gambar: Nvidia
Nvidia mengatakan bahwa GPU baru B200 menawarkan hingga 20 petaflops daya kuda FP4 dari 208 miliar transistornya. Selain itu, Nvidia mengatakan, GB200 yang menggabungkan dua GPU tersebut dengan satu CPU Grace dapat menawarkan kinerja 30 kali lipat untuk beban kerja inferensi LLM sambil juga mungkin jauh lebih efisien. Nvidia mengatakan bahwa ini “mengurangi biaya dan konsumsi energi hingga 25x” dibandingkan dengan H100.
Melatih model dengan 1,8 triliun parameter sebelumnya akan membutuhkan 8.000 GPU Hopper dan 15 megawatt daya, klaim Nvidia. Hari ini, CEO Nvidia mengatakan 2.000 GPU Blackwell dapat melakukannya sambil hanya mengonsumsi empat megawatt.
Pada benchmark GPT-3 LLM dengan 175 miliar parameter, Nvidia mengatakan GB200 memiliki kinerja sekitar tujuh kali lipat dari H100, dan Nvidia mengatakan bahwa ini menawarkan kecepatan pelatihan empat kali lipat.
Inilah seperti apa satu GB200 terlihat. Dua GPU, satu CPU, satu papan. Gambar: Nvidia
Nvidia memberi tahu para jurnalis bahwa salah satu perbaikan kunci adalah mesin transformer generasi kedua yang menggandakan komputasi, bandwidth, dan ukuran model dengan menggunakan empat bit untuk setiap neuron daripada delapan (maka itu 20 petaflops FP4 yang saya sebutkan sebelumnya). Perbedaan kunci kedua hanya muncul ketika Anda menghubungkan jumlah GPU ini secara besar-besaran: switch NVLink generasi berikutnya yang memungkinkan 576 GPU berkomunikasi satu sama lain, dengan 1,8 terabyte per detik bandwidth dua arah.
Ini memerlukan Nvidia untuk membangun chip switch jaringan baru sepenuhnya, dengan 50 miliar transistor dan beberapa komputasi onboard sendiri: 3,6 teraflops FP8, kata Nvidia.
Nvidia mengatakan bahwa sistemnya dapat berkembang hingga puluhan ribu superchip GB200, terhubung bersama dengan jaringan 800Gbps dengan Quantum-X800 InfiniBand baru mereka (untuk hingga 144 koneksi) atau ethernet Spectrum-X800 (untuk hingga 64 koneksi).