GPT-4o mini yang baru dirilis oleh OpenAI mendominasi Arena Chatbot. Inilah alasannya.

Ventris/Science Photo Library/Getty Images
Satu minggu yang lalu, OpenAI merilis GPT-4o mini. Dalam waktu singkat, ia sudah diperbarui dan naik ke papan peringkat Arena Chatbot Organisasi Sistem Model Besar (LMSYS), di depan raksasa seperti Claude 3.5 Sonnet dan Gemini Advanced.

Arena Chatbot LMSYS adalah platform yang didanai oleh kerumunan di mana pengguna dapat mengevaluasi model bahasa besar (LLMs) dengan mengobrol dengan dua LLMs secara bersamaan dan membandingkan respons mereka tanpa mengetahui nama model tersebut.

Juga: Ingin mencoba GPT-4o mini? Ada 3 cara untuk mengakses model AI yang lebih pintar dan lebih murah – dan 2 gratis.

Segera setelah diungkapkan, GPT-4o mini ditambahkan ke Arena, di mana ia dengan cepat naik ke puncak papan peringkat di belakang GPT-4o. Ini terutama mencolok karena GPT-4o mini 20 kali lebih murah daripada pendahulunya.

Update Arena Chatbot yang Menarik – hasil GPT-4o mini telah keluar! Dengan lebih dari 4.000 suara pengguna, GPT-4o mini naik ke puncak papan peringkat, sekarang bersamaan dengan GPT-4o sambil menjadi 20x lebih murah! Jauh lebih baik dari versi awalnya (“upcoming-gpt-mini”) di Arena di semua bidang. pic.twitter.com/xanm2Bqtg9 – lmsys.org (@lmsysorg) 23 Juli 2024

Ketika hasilnya keluar, beberapa pengguna mengungkapkan kekhawatiran mereka di media sosial tentang bagaimana model mini baru bisa menduduki peringkat lebih tinggi daripada model yang lebih mapan, tangguh, dan mampu seperti Claude 3.5 Sonnet. Untuk mengatasi kekhawatiran tersebut, LMSYS – posting di X – menjelaskan faktor-faktor yang menyebabkan penempatan tinggi GPT-4o mini, menyoroti bahwa posisi Arena Chatbot didasarkan pada preferensi manusia tergantung pada suara.

MEMBACA Apakah Pemecatan Pejabat Penerbangan oleh Trump Meningkatkan Risiko Kecelakaan Pesawat di DC? | Berita Penerbangan

Bagi pengguna yang tertarik untuk mengetahui model mana yang lebih baik, LMSYS mendorong mereka untuk melihat pemecahan per kategori untuk memahami kemampuan teknis. Ini bisa diakses dengan mengklik dropdown Kategori yang bertuliskan “Secara Keseluruhan” dan memilih kategori yang berbeda. Ketika Anda mengunjungi pemecahan kategori yang berbeda – seperti coding, hard prompts, dan pertanyaan yang lebih panjang – Anda akan melihat variasi dalam hasilnya.

Juga: OpenAI meluncurkan SearchGPT – inilah apa yang bisa dilakukannya dan bagaimana cara mengaksesnya.

Dalam kategori coding, GPT-4o mini menempati urutan ketiga di belakang GPT-4o dan Claude 3.5 Sonnet, yang menempati posisi pertama. Namun, GPT-4o mini adalah nomor satu dalam kategori lain, seperti multi-turn, percakapan lebih dari atau sama dengan dua putaran, dan pertanyaan yang lebih panjang sama dengan atau lebih dari 500 token.

Hasil Arena Chatbot dalam kategori “coding.” Tangkapan layar oleh Sabrina Ortiz/ZDNET

Jika Anda ingin mencoba GPT-4o mini, kunjungi situs ChatGPT dan masuk ke akun OpenAI Anda. Jika Anda lebih suka berpartisipasi di Arena Chatbot dan biarkan keberuntungan menunjukkan kepada Anda GPT-4o mini, Anda dapat memulainya dengan mengunjungi situs web, mengklik Arena berdampingan, dan kemudian memasukkan contoh permintaan. script async src = “https://platform.twitter.com/widgets.js” charset = “utf-8″>