Agen kecerdasan buatan mana yang terbaik? Papan peringkat baru ini dapat memberitahumu

Maciej Frolow/Getty Images

Apa yang lebih baik daripada chatbot AI yang dapat melakukan tugas untuk Anda ketika diminta? AI yang dapat melakukan tugas untuk Anda secara otomatis.

Para agen AI adalah medan terbaru dalam ruang AI. Perusahaan AI berlomba-lomba untuk membangun model mereka sendiri, dan penawaran terus bergulir ke perusahaan. Tetapi agen AI mana yang terbaik?

Juga: Fitur Gemini utama sekarang gratis untuk semua pengguna – tidak diperlukan langganan Advanced

Papan Peringkat Galileo

Pada hari Rabu, Galileo meluncurkan Papan Peringkat Agen di Hugging Face, platform AI sumber terbuka di mana pengguna dapat membangun, melatih, mengakses, dan mendeploy model AI. Papan peringkat dimaksudkan untuk membantu orang mempelajari bagaimana agen AI berperforma dalam aplikasi bisnis dunia nyata dan membantu tim menentukan agen mana yang paling cocok dengan kebutuhan mereka.

📊 Papan Peringkat Agen kami 𝗹𝗶𝘃𝗲! Kami telah membangun benchmark komprehensif tentang model LLM mana yang terbaik untuk Agen AI 👀
Setelah mengevaluasi 17 LLM terkemuka di 14 dataset yang beragam, kami senang untuk membagikan temuan kami tentang model mana yang benar-benar unggul dalam pemanggilan alat – dan siap untuk… pic.twitter.com/Cgw2iWNSA7

— 🔭 Galileo (@rungalileo) 12 Februari 2025

Di papan peringkat, Anda dapat menemukan informasi tentang performa model, termasuk peringkat dan skor. Pada pandangan pertama, Anda juga dapat melihat informasi lebih dasar tentang model, termasuk vendor, biaya, dan apakah itu sumber terbuka atau pribadi.

Papan peringkat saat ini menampilkan “17 LLM terkemuka,” termasuk model dari Google, OpenAI, Mistral, Anthropic, dan Meta. Papan ini diperbarui bulanan untuk mengikuti rilis yang terus berlangsung, yang telah terjadi dengan frekuensi tinggi.

MEMBACA Belanja penawaran awal Prime Day ini pada iPad, headphone, dan robot vacuum.

Bagaimana model dinilai

Untuk menentukan hasilnya, Galileo menggunakan dataset benchmark, termasuk BFCL (Berkeley Function Calling Leaderboard), τ-bench (Tau benchmark), Xlam, dan ToolACE, yang menguji berbagai kemampuan agen. Papan peringkat kemudian mengubah data ini menjadi kerangka evaluasi yang mencakup kasus penggunaan dunia nyata.

Juga: 3 sampingan jenius yang bisa Anda mulai dengan Operator OpenAI sekarang juga

“BFCL unggul dalam domain akademis seperti matematika, hiburan, dan pendidikan, τ-bench berspesialisasi dalam skenario ritel dan maskapai, xLAM mencakup pembangkitan data di 21 domain, dan ToolACE fokus pada interaksi API di 390 domain,” jelaskan perusahaan dalam sebuah pos blog.

Galileo menambahkan bahwa setiap model diuji secara stres untuk mengukur segalanya mulai dari pemanggilan API sederhana hingga tugas-tugas yang lebih canggih seperti interaksi multi-alat. Perusahaan juga membagikan metodologi mereka, meyakinkan pengguna bahwa mereka menggunakan metodologi standar untuk mengevaluasi semua agen AI secara adil. Pos ini mencakup informasi lebih teknis tentang peringkat model.

Peringkat

Flash Gemini-2.0 dari Google berada di posisi pertama, diikuti dengan GPT-4o dari OpenAI. Kedua model ini menerima apa yang Galileo sebut sebagai status “Kinerja Tingkat Elite,” yang diberikan kepada model dengan skor .9 atau lebih tinggi. Google dan OpenAI mendominasi papan peringkat dengan model-model pribadi mereka, mengambil enam posisi pertama.

Gemini 2.0 Google konsisten di semua kategori evaluasi dan seimbang dalam kinerja konsistensi yang mengesankan di semua kategori dengan efektivitas biaya, menurut pos, dengan biaya $0.15/$0.6 per juta token. Meskipun GPT-4o berada di posisi kedua, memiliki titik harga yang lebih tinggi di $2.5/$10 per juta token.

Pada segmen “kinerja tinggi,” kategori di bawah tingkat elit, Gemini-1.5-Flash berada di posisi ketiga, dan Gemini-1.5-Pro di posisi keempat. Model-model pemikiran OpenAI, o1 dan o3-mini, mengikuti di posisi kelima dan keenam.

MEMBACA Seiring dengan Penyelidikan Trump-Rusia, Sebuah Tinjauan yang Kurang Dikenal tentang Pengaruh Mesir

Mistral-small-2501 adalah model AI open source pertama yang masuk dalam daftar. Skor .832-nya menempatkannya dalam kategori “kemampuan tingkat menengah.” Evaluasi menemukan kekuatannya adalah penanganan konteks panjang yang kuat dan kemampuan pemilihan alat.

Cara mengakses

Untuk melihat hasilnya, Anda dapat mengunjungi Papan Peringkat Agen di Hugging Face. Selain papan peringkat standar, Anda akan dapat menyaring papan peringkat berdasarkan apakah LLM tersebut bersumber terbuka atau pribadi. dan berdasarkan kategori, yang mengacu pada kemampuan yang diuji (secara keseluruhan, konteks panjang, komposit, dll).