Agen AI Buruk sebagai Pekerja Lepas

Bahkan agen kecerdasan buatan terbaik pun terbukti cukup tidak memadai dalam pekerjaan lepas daring, berdasarkan sebuah eksperimen yang mempertanyakan gagasan AI akan menggantikan pekerja kantoran secara besar-besaran.

Remote Labor Index, sebuah patokan baru yang dikembangkan oleh peneliti dari perusahaan anotasi data Scale AI dan Center for AI Safety (CAIS), mengukur kemampuan model AI terkini dalam mengotomasi pekerjaan yang bernilai ekonomi.

Para peneliti memberikan beberapa pekerjaan lepas simulasi kepada sejumlah agen AI terkemuka dan menemukan bahwa bahkan yang terbaik hanya mampu menyelesaikan kurang dari 3 persen pekerjaan, dengan penghasilan $1.810 dari total kemungkinan $143.991. Alat yang paling mampu menurut penelitian adalah Manus dari startup China dengan nama yang sama, diikuti oleh Grok dari xAI, Claude dari Anthropic, ChatGPT dari OpenAI, dan Gemini dari Google.

“Saya berharap ini memberikan gambaran yang lebih akurat mengenai kemampuan AI saat ini,” ujar Dan Hendrycks, direktur CAIS. Dia menambahkan bahwa meskipun beberapa agen telah menunjukkan peningkatan signifikan dalam setahun terakhir, hal itu tidak menjamin laju peningkatan yang sama akan berlanjut.

Kemajuan AI yang spektakuler telah memicu spekulasi bahwa AI akan segera melampaui kecerdasan manusia dan menggantikan banyak pekerja. Pada Maret lalu, Dario Amodei, CEO Anthropic, menyatakan bahwa 90 persen pekerjaan coding akan diotomasi dalam hitungan bulan.

Gelombang AI sebelumnya juga telah menginspirasi prediksi keliru tentang penggantian tenaga kerja, misalnya mengenai penggantian radiolog oleh algoritma AI yang dikatakan akan segera terjadi.

Para peneliti menghasilkan berbagai tugas lepas melalui pekerja Upwork yang terverifikasi. Tugas-tugas tersebut mencakup berbagai pekerjaan seperti desain grafis, penyuntingan video, pengembangan game, dan pekerjaan administratif seperti pengambilan data. Mereka menggabungkan deskripsi setiap pekerjaan dengan direktori file yang diperlukan serta contoh proyek akhir yang dikerjakan manusia.

MEMBACA  Trump Sebut Musk sebagai "Bencana" Setelah Peluncuran Pesta

Hendrycks mengatakan bahwa meskipun model AI semakin mahir dalam pemrograman, matematika, dan penalaran logis beberapa tahun terakhir, mereka masih kesulitan menggunakan berbagai alat dan melakukan tugas kompleks yang melibatkan banyak langkah. “Mereka tidak memiliki penyimpanan memori jangka panjang dan tidak bisa belajar secara berkelanjutan dari pengalaman. Mereka tidak dapat menguasai keterampilan sambil bekerja seperti manusia,” jelasnya.

Analisis ini menjadi penyeimbang bagi patokan kerja ekonomi yang ditawarkan OpenAI pada September bernama GDPval, yang mengklaim dapat mengukur pekerjaan bernilai ekonomi. Menurut GDPval, model AI terkini seperti GPT-5 mendekati kemampuan manusia dalam 220 tugas di berbagai pekerjaan kantoran. OpenAI tidak memberikan komentar.