Peneliti Microsoft Uji Coba Manipulasi Agen AI—Hanya Satu yang Bertahan dari Segala Upaya

danleap/iStock/Getty Images Plus via Getty Images

Ikuti ZDNET: Tambahkan kami sebagai sumber pilihan di Google.


**Poin Penting ZDNET**
* Microsoft meneliti interaksi antara pelanggan dan penjual AI.
* Sebagian besar agen gagal menolak manipulasi dan membuat keputusan bijak.
* Hasilnya menggarisbawahi bahaya ekonomi yang dijalankan oleh agen AI.


Seperti yang mungkin Anda perhatikan, banyak sekali hype yang beredar tentang agen AI dan potensi mereka yang diklaim dapat mentransformasi ekonomi dan tenaga kerja manusia dengan mengotomasi tugas-tugas rutin yang memakan waktu. Namun, semakin banyak penelitian yang menunjukkan bahwa agen-agen ini memiliki kekurangan dalam hal-hal mendasar, mengindikasikan bahwa mereka mungkin belum siap untuk digunakan secara luas.

**Juga:** Saya membiarkan Gemini Deep Research menyisir Gmail dan Drive saya – inilah yang ditemukannya

Riset terbaru dari Microsoft menemukan bahwa alat-alat AI agenik terkemuka di industri kesulitan berinteraksi satu sama lain untuk menyelesaikan keputusan pasar dasar, seperti memilih restoran dengan membandingkan menu dan harga. Peneliti juga menemukan bahwa sebagian besar agen mudah tertipu oleh upaya manipulasi, termasuk prompt injection dan informasi yang menyesatkan. Namun, kegagalan ini konsisten, yang berarti penelitian ini bisa memberikan peta jalan bagi perusahaan AI untuk mengatasi kelemahan tersebut ke depannya.

Sebuah Pasar Uji Coba

Riset Microsoft berpusat pada apa yang mereka sebut “Magentic Marketplace” — sebuah lingkungan *open-source* di mana agen-agen AI saling berbicara untuk menyelesaikan transaksi dalam lingkungan virtual yang mensimulasikan pasar dunia nyata. (Anda bisa mencobanya sendiri di GitHub.)

Tujuannya adalah untuk menguji kemampuan praktis sistem agenik di saat pengembang AI dengan cepat menghadirkan produk-produk yang lebih otonom, seperti agen belanja dan pembeli untuk individu maupun bisnis. Operator dari OpenAI, misalnya, dapat menelusuri situs web dan menyelesaikan pembelian atas nama pengguna, sementara Business AI Meta dapat berinteraksi dengan pelanggan seperti perwakilan penjualan otomatis.

MEMBACA  Tips Tasya Kamila Menghadapi Anak yang Sedang Sakit Batuk-Pilek

**Juga:** Google Finance mendapat peningkatan bertenaga Gemini – inilah yang dapat dilakukannya untuk Anda sekarang

Kemunculan pembeli dan penjual otomatis ini “mengisyaratkan masa depan di mana agen [AI] menjadi peserta pasar yang aktif, tetapi struktur pasar ini masih belum pasti,” tulis Microsoft dalam postingan blog perusahaan tentang riset barunya.

Magentic Marketplace merupakan upaya awal untuk memetakan sebagian dari struktur tersebut, dan untuk mengungkap jebakan-jebakan yang mungkin kita tuju. Dirancang untuk meniru kompleksitas pasar dunia nyata, lingkungan ini melibatkan banyak agen, yang semuanya dibebaskan, dalam gaya teori permainan sejati, untuk berinteraksi dalam upaya mengoptimalkan hasil individu mereka sendiri — daripada sekadar mempertemukan agen pelanggan otomatis dengan agen pembeli dan membiarkan mereka membuat kesepakatan.

Microsoft menjalankan eksperimennya menggunakan model proprietary terkemuka seperti GPT-5 dan Gemini 2.5 Flash, serta model *open-source* seperti OSS-20b dari OpenAI. Model-model tersebut digunakan untuk mensimulasikan 100 pelanggan dan 300 bisnis, yang dapat berinteraksi satu sama lain melalui *prompt* teks yang dapat dipantau oleh pengguna manusia.

**Juga:** Saya membiarkan ChatGPT Atlas berbelanja di Walmart untuk saya – beginilah kinerja agen browser AI itu

Microsoft memberi para agen pelanggan daftar barang dan fasilitas, dan mereka harus mencari melalui semua agen penjual yang tersedia untuk menemukan yang menawarkan segala yang mereka cari dengan harga terbaik. Para peneliti menggunakan metrik “kesejahteraan konsumen” untuk menilai kinerja setiap model, yang dihitung sebagai jumlah valuasi internal barang seorang pelanggan dikurangi harga penjualan akhir, yang diagregasikan di semua transaksinya.

Bagaimana Kinerja Agen

Menurut Microsoft, agen pelanggan seringkali menunjukkan janji dalam membantu manusia mengatasi apa yang digambarkan perusahaan sebagai “kesenjangan informasi.” Bayangkan ini sebagai jalan pintas mental atau logistik yang mungkin diambil manusia ketika dihadapkan dengan terlalu banyak pilihan, seperti memilih secara acak atau mencari opsi termurah.

MEMBACA  Kekurangan Ozempic Telah Berakhir

“Perubahan ini penting karena ketika agen mendapatkan alat yang lebih baik untuk penemuan dan komunikasi, mereka meringankan beban kognitif pelanggan dalam mengisi kesenjangan informasi apa pun,” tulis Microsoft dalam postingan blognya. “Hal ini menurunkan biaya untuk membuat keputusan yang inform dan meningkatkan hasil bagi pelanggan.”

**Juga:** Mengapa Amazon benar-benar tidak ingin browser AI Perplexity berbelanja untuk Anda

Namun, agen-agen tersebut juga menunjukkan beberapa kelemahan kritis.

Salah satu masalah besar berkaitan dengan apa yang disebut para peneliti sebagai “Paradoks Pilihan” — frasa yang lebih familiar mungkin adalah “analisis kelumpuhan”. Pada dasarnya, meskipun mereka memiliki banyak pilihan berbeda untuk dipilih, sebagian besar agen pelanggan — dengan pengecualian GPT-5 dan Gemini 2.5 Flash — hanya berinteraksi dengan sejumlah kecil agen penjual.

“Ini menunjukkan bahwa sebagian besar model tidak melakukan perbandingan yang menyeluruh dan dengan mudah menerima opsi ‘cukup baik’ yang awal,” tulis Microsoft. Para peneliti juga menemukan bahwa untuk setiap agen pelanggan, kesejahteraan konsumen menurun seiring dengan meningkatnya jumlah opsi yang tersedia untuk agen penjual.

**Juga:** Agen mode AI Google sekarang dapat mengamankan tiket acara untuk Anda – begini caranya

Para peneliti juga menguji enam “strategi manipulasi” berbeda untuk mencoba menyesatkan agen pelanggan, termasuk menambahkan klaim meragukan seperti “restoran Meksiko peringkat #1” atau menggunakan *prompt injection* yang terang-terangan. Ada variasi yang luas dalam hal bagaimana model merespons, menurut Microsoft; yang patut dicatat, Claude Sonnet 4 menunjukkan ketahanan total terhadap semua upaya manipulasi.

Tidak mengherankan, para peneliti mendeteksi beberapa bias yang menghambat kinerja model. Misalnya, model *open-source* seperti Qwen2.5-14b-2507 cenderung memilih bisnis terakhir yang ditawarkan dalam daftar opsi awal, terlepas dari bagaimana perbandingannya dengan yang lain. Ada juga “bias proposal” yang meluas, yang menyebabkan model memilih agen penjual pertama yang melibatkannya dengan penawaran, mengindikasikan prioritas kecepatan atas ketelitian.

MEMBACA  Dapatkan Microsoft Office 2019 untuk Windows atau Mac hanya dengan $25

“Bias-bias ini dapat menciptakan dinamika pasar yang tidak adil, mendorong perilaku yang tidak diinginkan, dan mendorong bisnis untuk bersaing dalam kecepatan respons daripada kualitas produk atau layanan,” kata Microsoft.

Risiko Menggunakan Agen

Sementara perusahaan di balik alat-alat ini mempromosikannya sebagai asisten pribadi penghemat waktu, mereka juga dapat memiliki implikasi ekonomi besar — yang belum dipetakan. Pasar saham, misalnya, sudah diatur oleh algoritma yang sulit dipahami yang dirancang untuk melacak harga barang yang tak terhitung jumlahnya.

Seberapa lebih buram sistem itu nanti ketika AI tidak hanya melacak harga komoditas, tetapi benar-benar mengawasi banyak atau bahkan mayoritas transaksi sehari-hari?

Mengingat kita sudah tahu bahwa model AI rentan terhadap segala jenis bias yang tersembunyi dalam kompleksitas data pelatihannya, bagaimana bias ini akan terwujud ketika sekumpulan besar konsumen dan pembeli AI dilepas ke dunia nyata?

Temuan Microsoft hanyalah yang terbaru yang membuktikan bahwa *agent* tidak seharusnya dipercaya dalam situasi berisiko tinggi, dan kapan pun mereka digunakan, mereka harus diawasi dengan cermat.

Studi lain yang diterbitkan pekan ini, contohnya, menemukan bahwa *AI agents* masih jauh dari mampu menyelesaikan pekerjaan *freelance* yang berkualitas. Sebuah proyek riset Anthropic awal tahun ini memperlihatkan bahwa Claude kesulitan mengoperasikan usaha kecil selama sebulan.

Semua hasil ini mengarah pada kesimpulan bahwa di tengah hingar-bingar *hype* seputar *agent*, sistem ini masih membutuhkan waktu lama sebelum dapat berfungsi secara otonom. Seperti yang disimpulkan Microsoft dalam *blog post*-nya: “*Agents* seharusnya membantu, bukan menggantikan, pengambilan keputusan manusia.”