Ekonomi kecerdasan buatan telah menjadi topik hangat belakangan ini, dengan startup DeepSeek AI mengklaim ekonomi skala yang mengesankan dalam mendeploy chip GPU.
Dua dapat bermain dalam permainan itu. Pada hari Rabu, Google mengumumkan model bahasa besar open-source terbarunya, Gemma 3, hampir mencapai akurasi R1 DeepSeek dengan sebagian kecil daya komputasi yang diestimasi.
Menggunakan skor “Elo,” sistem pengukuran umum yang digunakan untuk meranking catur dan atlet, Google mengklaim Gemma 3 mendekati 98% skor DeepSeek R1, 1338 versus 1363 untuk R1.
Juga: Pertama Gemini, sekarang Gemma: model AI baru Google tertuju pada pengembang
Itu berarti R1 lebih unggul daripada Gemma 3. Namun, berdasarkan estimasi Google, raksasa pencarian itu mengklaim bahwa dibutuhkan 32 chip GPU “H100” mainstream Nvidia untuk mencapai skor R1, sedangkan Gemma 3 hanya menggunakan satu GPU H100.
Keseimbangan compute dan skor Elo Google adalah “titik manis,” perusahaan tersebut mengklaim.
Dalam posting blog, Google menamai program baru tersebut sebagai “model paling mampu yang dapat Anda jalankan pada satu GPU atau TPU,” merujuk pada chip AI kustom perusahaan, “unit pemrosesan tensor.”
“Gemma 3 memberikan kinerja terbaik untuk ukurannya, melebihi Llama-405B, DeepSeek-V3, dan o3-mini dalam evaluasi preferensi manusia awal di papan peringkat LMArena,” tulis posting blog itu, merujuk pada skor Elo.
“Ini membantu Anda membuat pengalaman pengguna yang menarik yang dapat cocok pada satu host GPU atau TPU.”
Model Google juga menempati peringkat Elo Llama 3 Meta, yang diestimasikan membutuhkan 16 GPU. (Perhatikan bahwa angka chip H100 yang digunakan oleh pesaing adalah perkiraan Google; DeepSeek AI hanya telah mengungkapkan contoh penggunaan 1.814 GPU H800 Nvidia yang kurang bertenaga untuk melayani jawaban dengan R1.)
Informasi lebih detail disediakan dalam posting blog pengembang di HuggingFace, di mana repositori Gemma 3 ditawarkan.
Model Gemma 3, yang ditujukan untuk penggunaan di perangkat daripada pusat data, memiliki jumlah parameter, atau “bobot” neural, yang jauh lebih sedikit daripada R1 dan model open-source lainnya. Secara umum, semakin besar jumlah parameter, semakin banyak daya komputasi yang dibutuhkan.
Juga: Apa itu DeepSeek AI? Apakah aman? Inilah semua yang perlu Anda ketahui
Kode Gemma menawarkan jumlah parameter sebesar 1 miliar, 4 miliar, 12 miliar, dan 27 miliar, cukup kecil menurut standar saat ini. Sebaliknya, R1 memiliki jumlah parameter sebesar 671 miliar, di mana ia dapat memilih menggunakan 37 miliar dengan mengabaikan atau mematikan bagian jaringan.
Peningkatan utama untuk membuat efisiensi seperti itu memungkinkan adalah teknik AI yang banyak digunakan yang disebut distilasi, di mana bobot model yang dilatih dari model yang lebih besar diekstraksi dari model tersebut dan dimasukkan ke dalam model yang lebih kecil, seperti Gemma 3, untuk memberikannya kekuatan yang ditingkatkan.
Model yang didistilasi juga dijalankan melalui tiga ukuran kontrol kualitas yang berbeda, termasuk Penguatan Pembelajaran dari Umpan Balik Manusia (RLHF) untuk membentuk output GPT dan model bahasa besar lainnya agar tidak menyinggung dan membantu; serta Penguatan Pembelajaran dari Umpan Balik Mesin (RLMF) dan Penguatan Pembelajaran dari Umpan Balik Eksekusi (RLEF), yang diklaim Google meningkatkan kemampuan matematika dan pemrograman model.
Juga: AI terbaik untuk pemrograman (dan apa yang tidak boleh digunakan – termasuk DeepSeek R1)
Posting blog pengembang Google merinci pendekatan tersebut, dan posting terpisah menjelaskan teknik yang digunakan untuk mengoptimalkan versi terkecil, model 1 miliar, untuk perangkat seluler. Ini termasuk empat teknik rekayasa AI umum: kuantisasi, pembaruan tata letak cache “key-value,” waktu pemuatan yang ditingkatkan dari variabel tertentu, dan “berbagi bobot GPU.”
Perusahaan membandingkan bukan hanya skor Elo tetapi juga Gemma 3 dengan Gemma 2 sebelumnya dan dengan model Gemini tertutupnya dalam tes benchmark seperti tugas pemrograman LiveCodeBench. Gemma 3 umumnya di bawah akurasi Gemini 1.5 dan Gemini 2.0, tetapi Google menyebut hasilnya mencolok, menyatakan bahwa Gemma 3 “menunjukkan kinerja yang kompetitif dibandingkan dengan model Gemini tertutup.”
Model Gemini memiliki jumlah parameter yang jauh lebih besar daripada Gemma.
Kemajuan utama Gemma 3 atas Gemma 2 adalah “jendela konteks” yang lebih panjang, jumlah token input yang dapat disimpan dalam memori untuk model bekerja pada saat tertentu.
Gemma 2 hanya 8.000 token sedangkan Gemma 3 adalah 128.000, yang dianggap sebagai “jendela konteks” yang “panjang,” lebih cocok untuk bekerja pada seluruh makalah atau buku. (Gemini dan model tertutup lainnya masih jauh lebih mampu, dengan jendela konteks sebanyak 2 juta token untuk Gemini 2.0 Pro.)
Gemma 3 juga multi-modal, yang tidak dimiliki oleh Gemma 2. Ini berarti dapat menangani masukan gambar bersamaan dengan teks untuk memberikan balasan atas pertanyaan seperti, “Apa yang ada di foto ini?”
Terakhir, Gemma 3 mendukung lebih dari 140 bahasa daripada hanya dukungan bahasa Inggris di Gemma 2.
Juga: Apa arti jendela konteks panjang untuk model AI, seperti Gemini?
Berbagai fitur menarik lainnya terdapat dalam teks detail.
Misalnya, isu yang dikenal dengan semua model bahasa besar adalah bahwa mereka mungkin menghafal bagian dari set data pelatihan mereka, yang dapat menyebabkan informasi bocor dan pelanggaran privasi jika model tersebut dimanfaatkan menggunakan teknik jahat.
Peneliti Google menguji kebocoran informasi dengan menyampling data pelatihan dan melihat seberapa banyak yang dapat diekstrak secara langsung dari Gemma 3 dibandingkan dengan model lainnya. “Kami menemukan bahwa model Gemma 3 menghafal teks berbentuk panjang pada tingkat yang jauh lebih rendah daripada model sebelumnya,” mereka mencatat, yang secara teoritis berarti model tersebut kurang rentan terhadap kebocoran informasi.
Mereka yang menginginkan detail teknis lebih lanjut dapat membaca makalah teknis Gemma 3.