Demos dari agen AI bisa terlihat menakjubkan, tapi mendapatkan teknologi untuk berperforma dengan andal dan tanpa kesalahan yang mengganggu (atau mahal) di kehidupan nyata bisa menjadi tantangan. Model-model saat ini bisa menjawab pertanyaan dan berbicara dengan keahlian hampir seperti manusia, dan menjadi tulang punggung dari chatbot seperti ChatGPT dari OpenAI dan Gemini milik Google. Mereka juga bisa melakukan tugas-tugas di komputer ketika diberikan perintah sederhana dengan mengakses layar komputer serta perangkat input seperti keyboard dan trackpad, atau melalui antarmuka perangkat lunak tingkat rendah.
Anthropic mengklaim bahwa Claude melebihi agen AI lainnya pada beberapa benchmark kunci termasuk SWE-bench, yang mengukur keterampilan pengembangan perangkat lunak agen, dan OSWorld, yang mengukur kapasitas agen untuk menggunakan sistem operasi komputer. Klaim tersebut belum diverifikasi secara independen. Anthropic mengatakan Claude bisa melakukan tugas di OSWorld dengan benar 14.9 persen dari waktu. Ini jauh di bawah manusia, yang biasanya mencetak skor sekitar 75 persen, tapi jauh lebih tinggi dari agen terbaik saat ini—termasuk GPT-4 milik OpenAI—yang berhasil sekitar 7.7 persen dari waktu.
Anthropic mengklaim bahwa beberapa perusahaan sudah menguji versi agen dari Claude. Ini termasuk Canva, yang menggunakannya untuk mengotomatisasi desain dan tugas editing, dan Replit, yang menggunakan model tersebut untuk tugas-tugas coding. Pengguna awal lainnya termasuk The Browser Company, Asana, dan Notion.
Ofir Press, seorang peneliti pascadoktoral di Universitas Princeton yang membantu mengembangkan SWE-bench, mengatakan bahwa AI agen cenderung kurang memiliki kemampuan untuk merencanakan jauh ke depan dan seringkali kesulitan untuk pulih dari kesalahan. “Untuk menunjukkan kegunaannya kita harus mendapatkan performa yang kuat pada benchmark yang sulit dan realistis,” katanya, seperti merencanakan berbagai perjalanan untuk pengguna dengan andal dan memesan semua tiket yang diperlukan.
Kaplan mencatat bahwa Claude sudah bisa menyelesaikan beberapa kesalahan dengan sangat baik. Ketika dihadapkan pada kesalahan terminal saat mencoba memulai server web, misalnya, model tersebut tahu bagaimana merevisi perintahnya untuk memperbaikinya. Model tersebut juga mengetahui bahwa harus mengaktifkan pop-up ketika mengalami jalan buntu saat menjelajahi web.
Banyak perusahaan teknologi sekarang berlomba-lomba untuk mengembangkan agen AI karena mereka mengejar pangsa pasar dan ketenaran. Bahkan, mungkin tidak akan lama lagi sebelum banyak pengguna memiliki agen di ujung jari mereka. Microsoft, yang telah menyuntikkan lebih dari $13 miliar ke OpenAI, mengatakan sedang menguji agen yang bisa menggunakan komputer Windows. Amazon, yang telah menginvestasikan banyak uang di Anthropic, sedang menjelajahi bagaimana agen bisa merekomendasikan dan akhirnya membeli barang untuk pelanggannya.
Sonya Huang, seorang mitra di perusahaan modal ventura Sequoia yang fokus pada perusahaan AI, mengatakan bahwa meskipun ada kegembiraan di sekitar agen AI, sebagian besar perusahaan sebenarnya hanya menamai ulang alat-alat yang didukung AI. Berbicara kepada WIRED sebelum berita Anthropic, dia mengatakan bahwa teknologi ini saat ini bekerja terbaik ketika diterapkan dalam domain-domain yang sempit seperti pekerjaan yang berhubungan dengan coding. “Anda perlu memilih ruang masalah di mana jika model gagal, itu tidak apa-apa,” katanya. “Itulah ruang masalah di mana perusahaan yang benar-benar agen asli akan muncul.”
Tantangan kunci dengan AI agen adalah bahwa kesalahan bisa jauh lebih bermasalah daripada balasan chatbot yang tidak jelas. Anthropic telah memberlakukan pembatasan tertentu pada apa yang Claude bisa lakukan—misalnya, membatasi kemampuannya untuk menggunakan kartu kredit orang untuk membeli barang.
Jika kesalahan bisa dihindari dengan cukup baik, kata Press dari Universitas Princeton, pengguna mungkin akan belajar untuk melihat AI—dan komputer—dengan cara yang benar-benar baru. “Saya sangat bersemangat tentang era baru ini,” katanya.