Protokol Ini Bisa Hentikan AI Terhebat Sekalipun – Bagaimana Solusinya?

Yuuji/E+ via Getty Images

Ikuti ZDNET: Tambahkan kami sebagai sumber pilihan di Google.

—

Poin Penting ZDNET:

Model AI terbaik pun menghadapi tantangan dalam menjalankan tugas melalui MCP.
Tolok ukur baru menunjukkan model kesulitan saat tugas menjadi lebih kompleks.
Diperlukan pelatihan lebih lanjut untuk model AI yang spesifik untuk penggunaan MCP.
—

Sebuah kategori middleware kecerdasan buatan yang tengah berkembang, yang dikenal sebagai Model Context Protocol (MCP), dimaksudkan untuk membuat program AI generatif seperti chatbot menjadi lebih kuat dengan memungkinkan mereka terhubung ke berbagai sumber daya, termasuk perangkat lunak seperti basis data.

Namun, berbagai penelitian mengungkapkan bahwa bahkan model AI terbaik pun kesulitan dalam menggunakan Model Context Protocol. Model AI terkemuka seperti Gemini 5 dari Google memerlukan banyak sekali putaran interaksi dengan program eksternal, yang menyebabkan penundaan panjang dalam kinerja model AI tersebut.

"Bahkan model state-of-the-art pun berjuang dengan kemampuan yang berbeda-beda," tulis Zhenting Wang dan timnya dari firma konsultan Accenture, MIT-IBM Watson AI Lab, dan University of California di Berkeley dalam sebuah karya Agustus lalu yang memperkenalkan MCP-Bench,一套 berisi 250 tugas untuk agen AI yang menggunakan MCP.

"Kinerja umumnya menurun seiring transisi tugas dari lingkup Server Tunggal ke Multi Server," tulis Zikang Guo dan tim dari University of Science and Technology of China bulan lalu saat mereka menguji beberapa model AI pada tes benchmark mereka sendiri, MCP-AgentBench.

Bahkan model terbaik saat ini, termasuk GPT-5 dari OpenAI, memiliki "kasus kegagalan" yang berasal dari "interaksi repetitif atau eksploratif yang gagal membuat kemajuan berarti," tulis penulis utama Zijian Wu beserta tim dari National University of Singapore dan institusi kolaborator dalam makalah yang mengumumkan benchmark mereka, MCPMark, bulan lalu.

Di mana Model AI Dapat Salah dengan MCP

MCP adalah sejenis middleware untuk mengubah AI menjadi interaksi client-server. Protokol ini diperkenalkan tahun lalu oleh startup AI generatif Anthropic (pembuat keluarga model bahasa besar dan chatbot Claude) sebagai cara yang aman dan berstandar industri untuk menghubungkan LLM dan agen AI ke sumber daya perangkat lunak eksternal seperti basis data dan perangkat lunak customer relationship management.

Seperti yang dijelaskan Steven Vaughan-Nichols dari ZDNET, middleware seperti MCP dapat mengurangi jumlah koneksi yang harus diprakarsai oleh program AI untuk terhubung ke beberapa sumber daya eksternal.

Namun, memiliki standar tidak berarti bahwa model AI, yang fungsionalitasnya mencakup banyak unsur peluang ("probabilitas" dalam istilah teknis), akan secara konsisten mengimplementasikan MCP dengan baik.

Sebuah model AI yang terhubung ke MCP harus menghasilkan keluaran yang mencapai beberapa hal, seperti merumuskan rencana untuk menjawab kueri dengan memilih sumber daya eksternal mana yang akan diakses, urutan menghubungi server MCP yang mengarah ke aplikasi eksternal tersebut, dan kemudian menyusun beberapa permintaan informasi untuk menghasilkan keluaran akhir guna menjawab kueri.

Berbagai penelitian menunjukkan bahwa meskipun model terdepan seperti Gemini 5 dan GPT-5 dapat berkinerja lebih baik daripada program yang kurang canggih, semua model masih terbatas dalam kemampuan mereka untuk mengelola semua tantangan tersebut. Masalah yang terjadi pada semua model termasuk mengambil langkah yang berlebihan untuk mengambil informasi, bahkan ketika rencana pendekatan model bahasa sudah benar sejak awal.

Apa yang Diberitahukan Tolok Ukur kepada Kita

Semua tes benchmark mengambil pendekatan yang serupa: Mereka mengumpulkan sekelompok kueri informasi yang menantang dan sejumlah server MCP yang dapat diakses oleh model AI, beserta sumber daya informasi yang diberikan aksesnya oleh server MCP tersebut.

Sumber daya dalam tes ini sering kali adalah sumber daya yang tersedia untuk publik seperti Google Search, Wikipedia, atau repositori informasi luas lainnya.

Contoh masalah dari karya Accenture oleh Wang dan tim adalah mengambil informasi online untuk merencanakan perjalanan hiking di akhir pekan. Prompt-nya dimulai dengan "Saya sedang merencanakan perjalanan hiking dan berkemah selama seminggu yang dimulai dan berakhir di Denver, dan saya berharap Anda bisa benar-benar mendalami detailnya bersama saya," dan kemudian merinci beberapa persyaratan, seperti taman mana yang akan dikunjungi, jam kunjungan, kemungkinan hujan, dll.

Permintaan tersebut harus dikirim ke beberapa layanan informasi yang diaktifkan oleh server MCP, termasuk Google Maps dan situs web taman nasional AS, serta ke alat spesifik seperti "findParks, getParkDetails, getAlerts, getVisitorCenters, getCampgrounds, getEvents."

Semua benchmark ini dimaksudkan untuk mengembangkan pengukuran model AI dari tantangan pemanggilan fungsi yang sederhana. Benchmark ini mengharuskan model AI untuk memenuhi beberapa persyaratan, termasuk mengubah prompt bahasa alami menjadi permintaan pencarian yang menghormati schema — urutan komunikasi untuk MCP yang ditentukan dalam kode JSON tempat MCP dibangun.

Menghormati schema hanyalah pencapaian tingkat terendah. Pada tingkat yang lebih tinggi, "agen harus mengidentifikasi alat yang benar dari ruang alat yang besar dan heterogen ketika dihadapkan dengan deskripsi tugas yang ambigu atau tidak jelas," tulis Wang dan tim. "Ini memerlukan penghilangan ambiguitas pada varian semantik, mengatasi ketidakkonsistenan penamaan, dan menghindari jebakan yang ditimbulkan oleh alat yang tampaknya masuk akal tetapi tidak relevan."

Benchmark biasanya mengukur berapa banyak sumber daya berbeda yang akan dimanfaatkan oleh sebuah program, dan berapa banyak "putaran" yang diperlukan, sebuah ukuran efisiensi penggunaan sumber daya tersebut oleh model AI.

Seperti yang dijelaskan Wang dan tim, MCP-Bench "mengukur koherensi struktural, kesadaran ketergantungan, efisiensi paralelisme, dan adaptasi reflektif." Tugas tidak hanya mencakup alur kerja linear, tetapi juga komposisi kompleks yang memerlukan interaksi bersamaan di berbagai server dengan berbagai tujuan. Semuanya dinilai sebagai kemampuan model AI dalam melakukan "perencanaan jangka panjang" dalam tingkatan yang berbeda-beda.

Jika model AI harus melakukan lebih banyak percakapan untuk memperoleh informasi yang diperlukan dari server MCP, ini dapat mengindikasikan ketidakmampuannya dalam merencanakan penggunaan sumber daya yang tersedia.

Semua tolok ukur ini menggunakan berbagai model bahasa besar untuk membandingkan kinerja model-model yang ada secara relatif.

Kabar baiknya, ketiga penelitian yang disebutkan melaporkan bahwa model AI yang lebih besar dan kuat memiliki skor lebih tinggi daripada model yang lebih kecil. Hal ini menunjukkan bahwa peningkatan model AI dalam berbagai aspek juga dapat meningkatkan kemampuannya dalam menghadapi tantangan terkait MCP.

Zijian Wu dan tim dari National University of Singapore juga mencatat keunggulan model-model terbaik dalam perencanaan yang lebih baik, dengan menyatakan bahwa "model yang lebih kuat berhasil melalui pengambilan keputusan yang lebih baik dan eksplorasi yang terarah, bukan sekadar coba-coba buta."

Wang dan tim menemukan bahwa "pembeda sesungguhnya adalah ketahanan terhadap penskalaan, di mana model tingkat atas menunjukkan keunggulan jelas dalam menangani tugas-tugas jangka panjang dan lintas server."

Guo dan tim menemukan beberapa model open-source (seperti Qwen3-235B) meraih skor tertinggi, dengan mencatat "tren mengejutkan dan signifikan: model open-source terdepan menunjukkan kemampuan yang luar biasa, setara bahkan melampaui model proprietary."

Namun, ada juga kendala bagi semua model. Wang dan tim mengungkapkan bahwa tugas-tugas MCP-Bench mereka "pada dasarnya terdiri dari banyak langkah dan sering kali melibatkan penghubungan berbagai alat yang berbeda di seluruh server," dan menemukan bahwa "bahkan model [AI] yang kuat biasanya memerlukan beberapa putaran interaksi," serta "kesulitan dengan berbagai kemampuan seperti kepatuhan terhadap rantai ketergantungan, pemilihan alat dalam lingkungan yang bising, dan perencanaan jangka panjang."

Demikian pula, Guo dan tim menyoroti masalah yang muncul seiring dengan meningkatnya kompleksitas interaksi MCP, mencatat bahwa di semua model, "kinerja umumnya menurun ketika tugas beralih dari ruang lingkup server tunggal ke multi-server […] penurunan serupa terjadi ketika ketergantungan panggilan meningkat dari panggilan tunggal sederhana ke panggilan berurutan yang kompleks."

Secara keseluruhan, tampaknya seiring dengan meningkatnya kompleksitas tugas dengan MCP, semua model AI menghadapi kesulitan, meskipun beberapa model berkinerja jauh lebih baik daripada yang lain.

Apa yang dapat dilakukan untuk meningkatkan model?

Pesan utama dari berbagai tolok ukur tersebut adalah bahwa model AI perlu beradaptasi dengan era baru di mana penggunaan MCP menjadi sebuah tantangan. Model AI mungkin harus berevolusi ke arah baru untuk memenuhi tantangan ini.

Ketiga penelitian mengidentifikasi masalah yang sama: Kinerja menurun ketika model AI harus mengakses lebih banyak server MCP. Kompleksitas dari banyaknya sumber daya mulai membebani bahkan model yang paling mampu merencanakan langkah-langkah di awal.

Seperti yang diungkapkan Wu dan tim dalam makalah MCPMark mereka, kompleksitas semua server MCP tersebut membebani kemampuan model AI mana pun untuk melacak semuanya.

Mereka mengidentifikasi tantangan utama dalam "kemampuan agen untuk mengelola riwayat interaksi MCP yang terus bertambah," dan "ketidakandalan inti yang hanya dapat diatasi dengan membangun agen yang memiliki kemampuan penanganan kesalahan dan koreksi diri yang tangguh."

Jalan paling langsung untuk memperbaiki kesenjangan kinerja model AI mungkin adalah dengan melatih mereka secara khusus untuk MCP.

Dengan menggunakan bentuk fine-tuning, yang berarti melatih model AI untuk kedua kalinya setelah tahap pre-training utama, para ilmuwan dari University of Washington dan MIT-IBM Watson AI Lab telah mengembangkan kumpulan data untuk fine-tuning yang terdiri dari jutaan contoh interaksi MCP antara program AI dan alat eksternal. Seperti yang mereka katakan, ini adalah "dataset tool-agentic terbesar yang tersedia untuk publik hingga saat ini."

Diperkenalkan bulan ini, dataset yang bernama Toucan ini mampu membuat model AI yang relatif kecil, seperti Qwen3-32B open-source, berkinerja lebih baik dalam tugas-tugas MCP secara keseluruhan dibandingkan dengan model AI yang jauh lebih besar seperti DeepSeek V3 dan o3 mini dari OpenAI, menggunakan tes tolok ukur yang sama yang diusulkan oleh Wang dan lainnya.

Sebagus apa pun Toucan, pertanyaan terbuka yang besar adalah apa yang harus dilakukan dengan semua sumber daya non-publik dan non-standar yang mungkin terhubung ke MCP di pusat data privat. Misalnya, jika model AI disesuaikan untuk bekerja dengan MCP lebih efisien dalam sebagian besar kasus, apakah itu pasti akan meningkatkan kinerja model AI tertentu pada instalasi on-premise Salesforce CRM atau database Oracle milik XYZ Corp.?

Kita tidak akan tahu sampai para CIO menerapkan MCP dan menemukan jawabannya. Yuuji/E+ lewat Getty Images

MEMBACA Prakiraan Cuaca Surabaya Hari Ini: Hujan Lebat di Siang Hari, Gerimis di Malam Hari

Di mana Model AI Dapat Salah dengan MCP

Apa yang Diberitahukan Tolok Ukur kepada Kita

Apa yang dapat dilakukan untuk meningkatkan model?