“
Thomas Wolf dari Hugging Face mengatakan bahwa semakin sulit untuk menentukan model AI mana yang terbaik karena benchmark AI tradisional menjadi jenuh. Menyusulnya, Wolfe mengatakan bahwa industri AI dapat mengandalkan dua pendekatan benchmarking baru—berbasis agensi dan khusus kasus penggunaan.
Thomas Wolf, salah satu pendiri dan ilmuwan utama di Hugging Face, berpikir bahwa kita mungkin memerlukan cara baru untuk mengukur model AI.
Wolf mengatakan kepada audiens di Brainstorm AI di London bahwa seiring dengan kemajuan model AI, semakin sulit untuk mengetahui model mana yang tampil paling baik.
“Sulit untuk menentukan model terbaik,” katanya, menunjuk pada perbedaan nominal antara rilis terbaru dari OpenAI dan Google. “Mereka semua tampaknya, sebenarnya, sangat dekat.”
“Dunia benchmark telah berkembang banyak. Kami biasanya memiliki benchmark akademis yang sebagian besar mengukur pengetahuan model—saya kira yang paling terkenal adalah MMLU (Massive Multitask Language Understanding), yang pada dasarnya adalah kumpulan pertanyaan tingkat sarjana atau tingkat PhD yang harus dijawab oleh model,” katanya. “Benchmark ini sebagian besar sudah jenuh saat ini.”
Selama setahun terakhir, telah ada suara-suara yang semakin meningkat dari kalangan akademisi, industri, dan kebijakan yang menyatakan bahwa benchmark AI umum, seperti MMLU, GLUE, dan HellaSwag, telah mencapai titik jenuh, dapat dimanipulasi, dan tidak lagi mencerminkan utilitas dunia nyata.
Dalam sebuah studi yang diterbitkan pada bulan Februari, para peneliti di Joint Research Centre Komisi Eropa, menerbitkan sebuah makalah yang berjudul “Apakah Kita Dapat Mempercayai Benchmarks AI? Tinjauan Lintas Disiplin atas Isu-Isu Saat Ini dalam Evaluasi AI” yang menemukan “cacat sistemik dalam praktik benchmarking saat ini”—termasuk insentif yang tidak sejalan, kegagalan validitas konstruksi, manipulasi hasil dan kontaminasi data.
Ke depan, Wolf mengatakan bahwa industri AI seharusnya mengandalkan dua jenis benchmark utama pada tahun 2025: satu untuk menilai agensi dari model, di mana LLM diharapkan melakukan tugas, dan yang lainnya disesuaikan dengan masing-masing kasus penggunaan untuk model.
Hugging Face sudah bekerja pada yang terakhir tersebut.
Program baru perusahaan, “Your Bench,” bertujuan untuk membantu pengguna menentukan model mana yang harus digunakan untuk tugas tertentu. Pengguna memberikan beberapa dokumen ke program, yang kemudian secara otomatis menghasilkan benchmark spesifik untuk jenis pekerjaan yang dapat diaplikasikan oleh pengguna ke berbagai model untuk melihat yang terbaik untuk kasus penggunaan tersebut.
“Hanya karena model-model ini semua bekerja sama pada benchmark akademis ini sebenarnya tidak berarti bahwa semuanya benar-benar sama,” kata Wolf.
Momen ‘ChatGPT’ Open Source
Dibentuk oleh Wolf, Clément Delangue, dan Julien Chaumond pada tahun 2016, Hugging Face telah lama menjadi pendukung AI sumber terbuka.
Sering disebut sebagai GitHub dari pembelajaran mesin, perusahaan menyediakan platform sumber terbuka yang memungkinkan pengembang, peneliti, dan perusahaan untuk membangun, berbagi, dan mendeploy model pembelajaran mesin, set data, dan aplikasi dalam skala besar. Pengguna juga dapat menjelajahi model dan set data yang diunggah oleh orang lain.
Wolf memberitahu audiens Brainstorm AI bahwa “model bisnis Hugging Face benar-benar sejalan dengan open source” dan “tujuan perusahaan adalah memiliki jumlah orang yang maksimum berpartisipasi dalam jenis komunitas terbuka ini dan berbagi model.”
Wolf memprediksi bahwa AI sumber terbuka akan terus berkembang, terutama setelah keberhasilan DeepSeek awal tahun ini.
Setelah diluncurkan akhir tahun lalu, model AI buatan China, DeepSeek R1, menggemparkan dunia AI ketika pengujian menemukan bahwa model tersebut sejajar atau bahkan melampaui model AI tertutup buatan Amerika.
Wolf mengatakan bahwa DeepSeek adalah momen “ChatGPT” bagi AI sumber terbuka.
“Sama seperti ChatGPT adalah momen seluruh dunia menemukan AI, DeepSeek adalah momen seluruh dunia menemukan bahwa ada semacam masyarakat terbuka,” katanya.
Cerita ini awalnya diterbitkan di Fortune.com
“