Gambar: johan63/iStock/Getty Images Plus via Getty Images
Poin Utama ZDNET:
- Model AI terdepan gagal memberikan output yang aman dan akurat untuk topik-topik medis.
- LMArena dan DataTecnica bertujuan untuk menguji pengetahuan medis LLM secara ‘rigor’.
- Belum jelas bagaimana agen dan LLM khusus medis akan diukur.
—
Dapatkan liputan teknologi ZDNET yang lebih mendalam: Tambahkan kami sebagai sumber Google pilihan pada peramban Chrome dan Chromium.
—
Meskipun terdapat banyak kemajuan AI dalam bidang kedokteran yang dikutip dalam berbagai literatur ilmiah, semua program AI generatif gagal menghasilkan keluaran yang aman dan akurat ketika berurusan dengan topik medis, merujuk pada laporan baru oleh firma penanda tolok LMArena.
Temuan ini sangat mengkhawatirkan mengingat orang-orang beralih ke bot seperti ChatGPT untuk mendapatkan jawaban medis, dan penelitian menunjukkan bahwa masyarakat lebih mempercayai saran medis dari AI dibandingkan saran dokter, bahkan ketika itu salah.
Studi baru yang membandingkan GPT-5 OpenAI dengan berbagai model dari Google, Anthropic, dan Meta, menemukan bahwa "kinerja dalam penelitian biomedis dunia nyata masih jauh dari memadai."
(Pernyataan: Ziff Davis, perusahaan induk ZDNET, mengajukan gugatan pada April 2025 terhadap OpenAI, dengan tuduhan melanggar hak cipta Ziff Davis dalam melatih dan mengoperasikan sistem AI-nya.)
Celah Pengetahuan dalam Dunia Medis
"Tidak ada model saat ini yang memenuhi kebutuhan penalaran dan pengetahuan spesifik domain para ilmuwan biomedis secara andal," menurut tim LMArena.
Laporan tersebut menyimpulkan bahwa model saat ini terlalu longgar dan kabur untuk memenuhi standar kedokteran:
"Celah fundamental ini menyoroti ketidaksesuaian yang semakin besar antara kemampuan AI umum dan kebutuhan komunitas ilmiah khusus. Peneliti biomedis bekerja di persimpangan pengetahuan kompleks yang terus berkembang dan dampak dunia nyata. Mereka tidak membutuhkan model yang ‘terdengar’ benar; mereka membutuhkan alat yang membantu mengungkap wawasan, mengurangi kesalahan, dan mempercepat tempo penemuan."
LMArena + DataTecnica
Studi ini menggema temuan dari tes tolok ukur lain terkait kedokteran. Misalnya, pada bulan Mei, OpenAI meluncurkan HealthBench, serangkaian perintah teks terkait situasi dan kondisi medis yang wajar jika dikirimkan ke chatbot oleh seseorang yang mencari nasihat medis. Studi tersebut menemukan bahwa skor akurasi terbaik, oleh model bahasa besar o3 OpenAI, yaitu 0,598, meninggalkan ruang yang cukup besar untuk perbaikan pada tolok ukur tersebut.
Memperluas Tolok Ukur
Untuk mengatasi kesenjangan antara model AI dan dunia medis, LMArena telah bekerja sama dengan startup DataTecnica, yang awal tahun ini meluncurkan rangkaian tes tolok ukur untuk AI Generatif bernama CARDBiomedBench, sebuah tolok ukur tanya jawab untuk mengevaluasi LLM dalam penelitian biomedis.
Bersama-sama, LMArena dan DataTecnica berencana untuk memperluas apa yang disebut BiomedArena, sebuah papan peringkat yang memungkinkan orang membandingkan model AI secara berdampingan dan memberikan suara pada model yang berkinerja terbaik.
BiomedArena dimaksudkan untuk spesifik pada penelitian medis, bukan pertanyaan yang sangat umum, tidak seperti papan peringkat serba guna.
Karya BiomedArena sudah digunakan oleh ilmuwan di Program Penelitian Intramural US National Institutes of Health, mereka mencatat, "di mana ilmuwan mengejar proyek berisiko tinggi dan berimbal hasil tinggi yang seringkali berada di luar cakupan penelitian akademis tradisional karena skalanya, kompleksitas, atau tuntutan sumber dayanya."
Karya BiomedArena, menurut tim LMArena, akan "berfokus pada tugas dan strategi evaluasi yang didasarkan pada realitas sehari-hari penemuan biomedis — dari menafsirkan data eksperimen dan literatur hingga membantu dalam generasi hipotesis dan translasi klinis."
Seperti dilaporkan Webb Wright dari ZDNET pada bulan Juni, LMArena.ai merangking model AI. Situs web awalnya didirikan sebagai inisiatif penelitian melalui UC Berkeley dengan nama Chatbot Arena dan sejak itu menjadi platform penuh, dengan dukungan keuangan dari UC Berkeley, a16z, Sequoia Capital, dan lainnya.
Di Mana Letak Potensi Kesalahannya?
Dua pertanyaan besar menghantui upaya tolok ukur baru ini.
Pertama, penelitian dengan dokter telah menunjukkan bahwa kegunaan AI generatif berkembang secara dramatis ketika model AI dihubungkan ke basis data informasi medis "standar emas", dengan model bahasa besar (LLM) khusus yang mampu mengungguli model terdepan teratas hanya dengan memanfaatkan informasi.
Dari pengumuman hari ini, tidak jelas bagaimana LMArena dan DataTecnica berencana untuk menangani aspek model AI tersebut, yang sebenarnya adalah semacam kemampuan agen — kemampuan untuk memanfaatkan sumber daya. Tanpa mengukur bagaimana model AI menggunakan sumber daya eksternal, tolok ukur tersebut mungkin memiliki utilitas yang terbatas.
Kedua, banyak LLM khusus kedokteran yang terus dikembangkan, termasuk program "MedPaLM" Google yang dikembangkan dua tahun lalu. Tidak jelas apakah karya BiomedArena akan memperhitungkan LLM khusus kedokteran ini. Sejauh ini, pekerjaan tersebut hanya menguji model-model terdepan umum.
Itu adalah pilihan yang sangat sah di pihak LMArena dan DataTecnica, tetapi itu memang mengabaikan banyak upaya penting lainnya.