Universitas Stanford
Persaingan untuk menciptakan model kecerdasan buatan terbaik di dunia telah menjadi sesuatu yang agak lomba-lomba, tumpukan peserta yang layak semua saling menumpuk, dengan semakin sedikit kemenangan yang jelas oleh siapapun.
Menurut para sarjana di Institut Kecerdasan Buatan Berbasis Manusia Universitas Stanford, jumlah peserta dalam model “frontier” atau “foundation” telah berkembang secara substansial dalam beberapa tahun terakhir, tetapi perbedaan antara yang terbaik dan yang paling lemah juga telah menyempit secara substansial.
Pada tahun 2024, “perbedaan skor Elo antara model teratas dan peringkat ke-10 di Papan Peringkat Arena Chatbot adalah 11,9%. Pada awal 2025, celah ini menyempit menjadi hanya 5,4%,” tulis Rishi Bommasani dan tim dalam “Laporan Tahunan AI Index 2025”
Juga: Apakah OpenAI terancam? Model open-source mungkin menghancurkannya, peringatkan ahli
Dalam bab tentang kinerja teknis, Bommasani dan rekan-rekannya menyatakan bahwa pada tahun 2022, ketika ChatGPT pertama kali muncul, model bahasa besar teratas didominasi oleh OpenAI dan Google. Bidang itu sekarang termasuk China’s DeepSeek AI, xAI milik Elon Musk, Anthropic, Meta Platforms’s Meta AI, dan Mistral AI.
“Lanskap AI menjadi semakin kompetitif, dengan model berkualitas tinggi saat ini tersedia dari sejumlah pengembang yang semakin bertambah,” tulis mereka.
Celah antara OpenAI dan Google telah menyempit bahkan lebih, dengan keluarga GPT dan Gemini memiliki perbedaan kinerja hanya 0,7%, turun dari 4,9% pada tahun 2023.
Tren bersamaan, menurut Bommasani, adalah munculnya model AI “berat terbuka”, seperti Llama Meta Platforms, yang dalam beberapa kasus, dapat menyamai model “tertutup” teratas, seperti GPT.
Universitas Stanford
Model berat terbuka adalah mereka di mana berat yang dilatih dari jaringan saraf, inti dari kemampuan mereka untuk mengubah input menjadi output, dibuat tersedia untuk diunduh. Mereka dapat digunakan untuk memeriksa dan mereplikasi model AI tanpa harus memiliki akses ke instruksi kode sumber aktual dari model tersebut. Model tertutup tidak memberikan akses publik ke bobot, sehingga model tetap menjadi semacam kotak hitam, seperti halnya dengan GPT dan Gemini.
“Pada awal Januari 2024, model tertutup berat teratas mengungguli model berat terbuka teratas sebesar 8,0%. Pada Februari 2025, celah ini menyempit menjadi 1,7%,” tulis Bommasani dan tim.
Juga: Gemini Pro 2.5 adalah asisten penulisan yang sangat mumpuni – dan ancaman besar bagi ChatGPT
Sejak 2023, ketika “model berat tertutup secara konsisten mengungguli lawan berat terbuka pada hampir setiap benchmark utama,” mereka menunjukkan, celah antara tertutup dan terbuka telah menyempit dari 15,9 poin menjadi “hanya 0,1 poin persentase” pada akhir 2024, sebagian besar sebagai hasil dari versi 3.1 Llama Meta.
Benang lain yang berlangsung bersamaan dengan model berat terbuka adalah prestasi mengejutkan dari model bahasa besar yang lebih kecil. Model AI biasanya diklasifikasikan berdasarkan jumlah bobot yang mereka gunakan, dengan yang terbesar saat ini yang diumumkan secara publik, Llama 4 Meta, menggunakan dua triliun bobot.
Universitas Stanford
“Tahun 2024 adalah tahun terobosan bagi model AI yang lebih kecil,” tulis Bommasani dan tim. “Hampir setiap pengembang AI utama merilis model kompak, berkinerja tinggi, termasuk GPT-4o mini, o1-mini, Gemini 2.0 Flash, Llama 3.1 8B, dan Mistral Small 3.5.”
Bommasani dan tim tidak membuat prediksi tentang apa yang terjadi selanjutnya di bidang yang ramai ini, tetapi mereka melihat kekhawatiran yang sangat mendesak terkait tes benchmark yang digunakan untuk mengevaluasi model bahasa besar.
Tes-t