AI Gagal Mengerjakan Tugas Freelancer 97% dari Kesempatan, Ungkap Indeks ‘Tenaga Kerja Jarak Jauh’ Terbaru

Mininyx Doodle/iStock/Getty Images Plus
Ikuti ZDNET: Tambahkan kami sebagai sumber pilihan di Google.

Kesimpulan Penting ZDNET
Beberapa AI diberi tugas pekerjaan yang sebenarnya telah diselesaikan oleh manusia. Para AI gagal total jika dibandingkan dengan pekerja manusia. Namun, kecerdasan buatan terus meningkat kecerdasanya.

Salah satu kekhawatiran utama tentang AI adalah kemampuannya untuk menggantikan manusia dalam pekerjaan. Meskipun kekhawatiran tersebut tidak sepenuhnya tanpa alasan, sebuah studi terbaru menunjukkan bahwa hal itu mungkin berlebihan—setidaknya untuk saat ini.

Indeks Tenaga Kerja Jarak Jauh

Untuk mengukur apakah kecerdasan buatan dapat menyelesaikan suatu proyek seefektif manusia, sekelompok peneliti memberikan serangkaian proyek kerja kepada beberapa AI. Proyek-proyek ini sebelumnya telah diselesaikan oleh pekerja lepas jarak jauh, mencakup bidang pengembangan game, desain produk, arsitektur, analisis data, dan animasi video.

Lebih spesifik, tugas-tugas tersebut meliputi tantangan seperti:

  • Membangun dasbor interaktif untuk mengeksplorasi data dari Laporan Kebahagiaan Dunia.
  • Membuat animasi 3D untuk menampilkan fitur desain earbuds dan casing baru.
  • Membuat video animasi 2D yang mengiklankan layanan perusahaan jasa gratis.
  • Mengembangkan rencana arsitektur dan model 3D untuk rumah kontainer berdasarkan desain PDF yang ada.
  • Membuat versi tema pembuatan bir dari "Permainan Semangka," di mana pemain menggabungkan objek yang jatuh untuk mencapai item level tertinggi.
  • Memformat makalah menggunakan fitur dan persamaan yang disediakan untuk konferensi IEEE.

    Mencakup berbagai tingkat kesulitan, tugas-tugas yang dikerjakan manusia ini menelan biaya $10.000 dan membutuhkan waktu lebih dari 100 jam. Untuk mengukur bagaimana otomatisasi AI dibandingkan dengan pekerjaan jarak jauh oleh manusia, para peneliti membuat patokan bernama Indeks Tenaga Kerja Jarak Jauh (RLI).

    Kinerja Model-model AI

    Seperti dijelaskan peneliti, tujuan RLI adalah menguji kemampuan AI dalam mengotomatisasi ratusan proyek panjang, nyata, dan bernilai ekonomi dari platform kerja jarak jauh.

    Model AI yang digunakan dalam studi ini adalah Manus, Grok 4, Sonnet 4.5, GPT-5, agen ChatGPT, dan Gemini 2.5 Pro.

    Bagaimana hasil kinerja mereka? Tidak terlalu baik.

    "Sementara sistem AI telah jenuh dalam banyak tolok ukur yang ada, kami menemukan bahwa agen AI mutakhir berkinerja hampir di dasar skala pada RLI," ungkap para peneliti. "Model dengan kinerja terbaik hanya mencapai tingkat otomatisasi 2,5%. Ini menunjukkan bahwa sistem AI kontemporer gagal menyelesaikan sebagian besar proyek pada tingkat kualitas yang akan diterima sebagai pekerjaan yang ditugaskan."

    Manus berkinerja terbaik dengan tingkat 2,5%. Grok 4 dan Sonnet 4.5 seri di 2,1%, GPT-5 berikutnya di 1,7%, diikuti agen ChatGPT di 1,3%. Gemini berada di posisi terakhir dengan 0,8%.

    Salah satu peneliti, Dan Hendrycks, memberikan tanggapan mengenai tes dan hasilnya melalui sebuah unggahan di X. Hendrycks mengakui bahwa meskipun AI cerdas, mereka belum terlalu berguna—dengan tingkat otomatisasi keseluruhan di bawah 3%.

    Untuk menjelaskan mengapa AI gagal dalam pekerjaan, Hendrycks menyatakan bahwa banyak kemampuan AI masih kurang. AI tidak belajar sambil bekerja karena tidak memiliki penyimpanan memori jangka panjang. Ditambah, kemampuan visual AI terbatas, padahal keterampilan itu dibutuhkan untuk beberapa tugas.

    Peningkatan yang Konsisten

    Ini semua terdengar seperti kabar baik bagi pekerja yang khawatir digantikan AI. Benar? Nah, jangan buru-buru merobek resume Anda. Tes ini sengaja memasukkan tugas-tugas kreatif yang membutuhkan keterampilan agak maju. Jenis pekerjaan dan proyek lain kemungkinan akan lebih mudah ditangani oleh AI. Selain itu, AI hanya akan semakin cerdas dan mampu.

    "Sementara tingkat otomatisasi absolut masih rendah, analisis kami menunjukkan bahwa model-model terus membaik dan kemajuan dalam tugas-tugas kompleks ini dapat diukur," kata para peneliti. "Ini memberikan dasar bersama untuk melacak trajektori otomatisasi AI, memungkinkan para pemangku kepentingan untuk secara proaktif mengarungi dampaknya."

    Ya, lebih baik terus perbarui resume Anda untuk berjaga-jaga.

MEMBACA  WatchOS 12 Segera Hadir! Inilah yang Kami Harapkan untuk Apple Watch

Tinggalkan komentar