Berhenti mengejar standar AI—buatlah milikmu sendiri

Setiap beberapa bulan, sebuah model bahasa besar (LLM) baru diangkat sebagai juara kecerdasan buatan, dengan skor rekor dalam benchmark. Namun, metrik-metrik yang dirayakan ini jarang mencerminkan kebutuhan bisnis nyata atau mewakili batas-batas inovasi kecerdasan buatan yang sesungguhnya. Bagi perusahaan yang mencari model kecerdasan buatan untuk perusahaan, jika keputusan mengenai model yang akan digunakan hanya berdasarkan pada leaderboard ini saja dapat menyebabkan kesalahan yang mahal – mulai dari anggaran yang terbuang, hingga kemampuan yang tidak sesuai dan kesalahan domain-spesifik yang berpotensi merugikan yang jarang terekam oleh skor benchmark.

Benchmark publik dapat membantu pengguna individu dengan memberikan indikator arah tentang kemampuan kecerdasan buatan. Dan memang, beberapa benchmark penyelesaian kode dan teknik rekayasa perangkat lunak, seperti SWE-Bench atau Codeforces, sangat berharga bagi perusahaan dalam kisaran sempit aplikasi bisnis berbasis kode, berbasis LLM. Namun, benchmark dan leaderboard publik yang paling umum sering kali mengalihkan perhatian baik perusahaan maupun pengembang model, mendorong inovasi ke arah peningkatan marginal dalam area yang tidak membantu bisnis atau tidak terkait dengan area inovasi kecerdasan buatan yang menjanjikan.

Tantangannya bagi eksekutif, oleh karena itu, terletak pada merancang kerangka evaluasi yang spesifik untuk bisnis yang menguji model-model potensial di lingkungan di mana mereka akan diterapkan. Untuk melakukannya, perusahaan akan perlu mengadopsi strategi evaluasi yang disesuaikan untuk dijalankan secara besar-besaran menggunakan data yang relevan dan realistis.

Ketidakcocokan antara benchmark dan kebutuhan bisnis

Benchmark yang mencolok yang diumumkan oleh pengembang model sering kali terputus dari realitas aplikasi perusahaan. Pertimbangkan beberapa benchmark paling populer: penalaran tingkat sarjana (GPQA Diamond) dan tes matematika tingkat sekolah menengah, seperti MATH-500 dan AIME2024. Masing-masing dari ini disebut dalam rilis untuk GPT o1, Sonnet 3.7, atau DeepSeek’s R1. Namun, tidak ada indikator ini yang membantu dalam menilai aplikasi bisnis umum seperti alat manajemen pengetahuan, asisten desain, atau chatbot yang berhadapan dengan pelanggan.

Daripada mengasumsikan bahwa model “terbaik” di leaderboard tertentu adalah pilihan yang jelas, perusahaan harus menggunakan metrik yang disesuaikan dengan kebutuhan spesifik mereka untuk bekerja mundur dan mengidentifikasi model yang tepat. Mulailah dengan menguji model pada konteks dan data sebenarnya Anda – pertanyaan pelanggan nyata, dokumen spesifik domain, atau input apa pun yang akan dihadapi sistem Anda dalam produksi. Ketika data nyata jarang atau sensitif, perusahaan dapat membuat kasus uji sintetis yang menangkap tantangan yang sama.

Tanpa uji coba di dunia nyata, perusahaan dapat berakhir dengan model yang tidak sesuai yang mungkin, misalnya, memerlukan terlalu banyak memori untuk perangkat edge, memiliki laten yang terlalu tinggi untuk interaksi real-time, atau memiliki dukungan yang tidak mencukupi untuk implementasi on-premise yang kadang-kadang diwajibkan oleh standar tata kelola data.

Salesforce telah mencoba untuk menjembatani kesenjangan ini antara benchmark umum dan kebutuhan bisnis mereka dengan mengembangkan benchmark internal sendiri untuk kebutuhan CRM mereka. Perusahaan menciptakan kriteria evaluasi sendiri khusus untuk tugas-tugas seperti prospek, mengasuh prospek, dan menghasilkan ringkasan kasus layanan – pekerjaan nyata yang tim pemasaran dan penjualan membutuhkan AI untuk melakukannya.

MEMBACA  Krisis etika yang diciptakan sendiri: Demokrat menghantam etika Mahkamah Agung | Berita Pengadilan

Melampaui metrik yang disederhanakan

Benchmark populer tidak hanya tidak mencukupi untuk pengambilan keputusan bisnis yang informatif tetapi juga bisa menyesatkan. Seringkali liputan media tentang LLM, termasuk semua tiga pengumuman rilis utama baru-baru ini, menggunakan benchmark untuk membandingkan model berdasarkan kinerja rata-rata mereka. Benchmark spesifik dicairkan menjadi titik, angka, atau baris tunggal.

Permasalahannya adalah model AI generatif adalah sistem stokastik, sensitif input yang tinggi, yang berarti variasi sedikit dari sebuah prompt dapat membuat mereka berperilaku secara tidak terduga. Sebuah penelitian terbaru dari Anthropic dengan tepat berargumen bahwa, akibatnya, titik tunggal pada grafik perbandingan kinerja tidak cukup karena rentang kesalahan besar dari metrik evaluasi. Sebuah studi terbaru oleh Microsoft menemukan bahwa menggunakan evaluasi berbasis kluster yang lebih akurat dalam benchmark yang sama dapat signifikan mengubah peringkat dan narasi publik tentang model di leaderboard.

Itulah mengapa pemimpin bisnis harus memastikan pengukuran yang andal terhadap kinerja model di sekitar rentang variasi yang wajar, dilakukan secara besar-besaran, bahkan jika membutuhkan ratusan uji coba. Kerja yang teliti ini menjadi lebih penting lagi ketika beberapa sistem digabungkan melalui rantai suplai AI dan data, yang potensial meningkatkan variabilitas. Untuk industri seperti penerbangan atau kesehatan, margin kesalahan yang kecil dan jauh di luar apa yang biasanya dijamin oleh benchmark AI saat ini, sehingga hanya mengandalkan metrik leaderboard bisa menyembunyikan risiko operasional yang substansial dalam implementasi di dunia nyata.

Perusahaan juga harus menguji model dalam skenario adversarial untuk memastikan keamanan dan ketangguhan suatu model – seperti ketahanan chatbot terhadap manipulasi oleh pelaku jahat yang mencoba melewati pembatas – yang tidak bisa diukur oleh benchmark konvensional. LLMs secara khusus rentan terhadap tertipu oleh teknik prompting yang canggih. Bergantung pada kasus penggunaan, menerapkan perlindungan yang kuat terhadap kerentanan ini bisa menentukan pilihan teknologi dan strategi implementasi Anda. Ketahanan suatu model dalam menghadapi pelaku jahat potensial bisa menjadi metrik yang lebih penting daripada kemampuan matematika atau penalaran model. Menurut pandangan kami, membuat AI “tahan tipuan” adalah batas berikutnya yang menarik dan berdampak bagi para peneliti AI, yang mungkin memerlukan teknik pengembangan model dan pengujian yang baru.

Menerapkan evaluasi ke dalam praktik: Empat kunci pendekatan yang dapat diskalakan

Mulailah dengan kerangka evaluasi yang ada. Perusahaan harus mulai dengan memanfaatkan kelebihan alat otomatis yang ada (bersama dengan penilaian manusia dan tujuan pengukuran praktis namun dapat diulang). Kit alat evaluasi AI khusus, seperti DeepEval, LangSmith, TruLens, Mastra, atau ARTKIT, dapat mempercepat dan menyederhanakan pengujian, memungkinkan perbandingan yang konsisten antar model dan dari waktu ke waktu.

MEMBACA  Saya Tidak Akan Menggunakan Fitur Kesehatan AI, demi Kesejahteraan Saya Sendiri. Ini Alasannya.

Melibatkan ahli manusia dalam pengujian. Evaluasi AI yang efektif memerlukan bahwa pengujian otomatis disertai dengan penilaian manusia setiap kali memungkinkan. Evaluasi otomatis bisa mencakup perbandingan jawaban LLM dengan jawaban kebenaran yang ada, atau penggunaan metrik proksi, seperti skor ROUGE atau BLEU otomatis, untuk mengukur kualitas ringkasan teks.

Untuk penilaian yang rumit, di mana mesin masih kesulitan, evaluasi manusia tetap penting. Ini bisa melibatkan ahli domain atau pengguna akhir yang melakukan tinjauan “buta” dari sebagian output model. Tindakan seperti ini juga dapat menandai bias potensial dalam respons, seperti LLM memberikan respons tentang kandidat pekerja yang bias berdasarkan gender atau ras. Lapisan manusia ini dari tinjauan adalah intensif kerja, tetapi dapat memberikan wawasan tambahan yang penting, seperti apakah sebuah respons benar-benar berguna dan disajikan dengan baik.

Nilai dari pendekatan gabungan ini dapat dilihat dalam studi kasus terbaru di mana sebuah perusahaan mengevaluasi chatbot pendukung SDM menggunakan uji coba manusia dan otomatis. Proses evaluasi internal iteratif perusahaan dengan keterlibatan manusia menunjukkan sumber kesalahan respons LLM yang signifikan disebabkan oleh pembaruan data perusahaan yang bermasalah. Penemuan ini menyoroti bagaimana evaluasi manusia dapat mengungkap masalah sistemik di luar model itu sendiri.

Fokus pada keseimbangan, bukan dimensi penilaian yang terisolasi. Saat mengevaluasi model, perusahaan harus melihat melampaui akurasi untuk mempertimbangkan spektrum penuh persyaratan bisnis: kecepatan, efisiensi biaya, kelayakan operasional, fleksibilitas, kemampuan pemeliharaan, dan kepatuhan regulasi. Sebuah model yang berkinerja sedikit lebih baik pada metrik akurasi mungkin terlalu mahal atau terlalu lambat untuk aplikasi real-time. Contoh bagus dari ini adalah bagaimana GPT o1 dari Open AI (yang menjadi pemimpin dalam banyak benchmark pada saat rilis) berkinerja saat diterapkan pada hadiah ARC-AGI. Untuk kejutan banyak orang, model o1 berkinerja buruk, sebagian besar karena batasan “efisiensi” ARC-AGI pada daya komputasi yang digunakan untuk menyelesaikan tugas benchmark. Model o1 seringkali memakan terlalu lama, menggunakan waktu komputasi lebih untuk mencoba mencari jawaban yang lebih akurat. Sebagian besar benchmark populer tidak memiliki batas waktu meskipun waktu akan menjadi faktor yang sangat penting untuk banyak kasus penggunaan bisnis.

Keseimbangan menjadi lebih penting dalam dunia aplikasi (multi)-agen, di mana tugas-tugas sederhana dapat ditangani oleh model-model yang lebih murah, lebih cepat (dipantau oleh agen orkestrasi), sementara langkah-langkah paling kompleks (seperti menyelesaikan serangkaian masalah dari pelanggan) mungkin memerlukan versi yang lebih kuat dengan penalaran untuk berhasil.

HuggingGPT dari Microsoft Research, misalnya, mengatur model-model khusus untuk tugas-tugas yang berbeda di bawah model bahasa pusat. Menjadi siap untuk mengubah model untuk tugas-tugas yang berbeda memerlukan pembangunan perangkat lunak yang fleksibel yang tidak dikodekan ke model tunggal atau penyedia. Fleksibilitas bawaan ini memungkinkan perusahaan dengan mudah beralih dan mengubah model berdasarkan hasil evaluasi. Meskipun hal ini mungkin terdengar seperti banyak kerja pengembangan tambahan, ada sejumlah alat yang tersedia, seperti LangChain, LlamaIndex, dan Pydantic AI, yang dapat menyederhanakan proses ini.

MEMBACA  Roomba terbaru dari iRobot membersihkan pel mop-nya sendiri

Mengubah pengujian model menjadi budaya evaluasi dan pemantauan berkelanjutan. Saat teknologi berkembang, penilaian berkelanjutan memastikan solusi AI tetap optimal sambil tetap selaras dengan tujuan bisnis. Sama seperti tim rekayasa perangkat lunak menerapkan integrasi berkelanjutan dan pengujian regresi untuk menangkap bug dan mencegah penurunan kinerja dalam kode tradisional, sistem AI memerlukan evaluasi reguler terhadap benchmark bisnis-spesifik. Mirip dengan praktik farmakovigilans di antara pengguna obat-obatan baru, umpan balik dari pengguna LLM dan pemangku kepentingan yang terpengaruh juga perlu terus-menerus dikumpulkan dan dianalisis untuk memastikan AI “berperilaku seperti yang diharapkan” dan tidak menyimpang dari target kinerjanya yang dimaksudkan.

Jenis kerangka evaluasi yang dibuat khusus ini memupuk budaya eksperimen dan pengambilan keputusan berbasis data. Hal ini juga menegaskan mantra baru dan penting: AI dapat digunakan untuk eksekusi, tetapi manusia yang mengendalikan dan harus mengatur AI.

Kesimpulan

Bagi para pemimpin bisnis, jalan menuju kesuksesan AI bukanlah dengan mengejar juara benchmark terbaru tetapi dengan mengembangkan kerangka evaluasi untuk tujuan bisnis spesifik Anda. Pikirkan pendekatan ini sebagai “leaderboard untuk setiap pengguna,” seperti yang disarankan oleh sebuah makalah Stanford. Nilai sejati dari implementasi AI datang dari tiga tindakan kunci: menetapkan metrik yang langsung mengukur kesuksesan dalam konteks bisnis Anda; mengimplementasikan pengujian yang statistik yang kuat dalam situasi realistis menggunakan data dan konteks Anda yang sebenarnya; dan memupuk budaya pemantauan, evaluasi, dan eksperimen yang berkelanjutan yang mengandalkan alat otomatis dan keahlian manusia untuk menilai keseimbangan antar model.

Dengan mengikuti pendekatan ini, para eksekutif akan dapat mengidentifikasi solusi yang dioptimalkan untuk kebutuhan khusus mereka tanpa membayar harga premium untuk “model terbaik”. Melakukan hal ini akan diharapkan dapat membantu mengarahkan industri pengembangan model dari mengejar peningkatan marginal pada metrik yang sama – jatuh ke dalam hukum Goodhart dengan kemampuan yang berguna terbatas untuk bisnis – dan sebaliknya membebaskan mereka untuk menjelajahi jalur inovasi baru dan terobosan AI berikutnya.

Baca kolom Fortune lainnya oleh François Candelon.

Francois Candelon adalah mitra di perusahaan ekuitas swasta Seven2 dan mantan direktur global BCG Henderson Institute.

Theodoros Evgeniou adalah seorang profesor di INSEAD dan salah satu pendiri perusahaan kepercayaan dan keamanan Tremau.

Max Struever adalah insinyur utama di BCG-X dan duta besar di BCG Henderson Institute.

David Zuluaga Martínez adalah mitra di Boston Consulting Group dan duta besar di BCG Henderson Institute.

Beberapa perusahaan yang disebutkan dalam kolom ini adalah klien masa lalu atau saat ini dari tempat kerja penulis.

Kisah ini awalnya muncul di Fortune.com