Agen AI Terbaik Adalah Freelancer yang Buruk — Untuk Sementara

Mininyx Doodle/iStock/Getty Images Plus

Ikuti ZDNET: Tambahkan kami sebagai sumber pilihan di Google.


Intisari ZDNET

  • Studi terbaru mengungkapkan bahwa agen-agen AI terkemuka gagal dalam pekerjaan lepas.
  • Studi ini mengevaluasi kinerja Gemini 2.5 Pro, GPT-5, dan agen-agen lainnya.
  • Hampir separuh tenaga kerja AS melakukan pekerjaan lepas pada tahun 2025.

    Jika Anda seorang pekerja lepas dan merasa khawatir akan kehilangan pekerjaan karena AI, Anda bisa sedikit bernapas lega — setidaknya untuk sementara waktu.

    Menurut sebuah studi terbaru yang dilakukan oleh Scale AI dan Center for AI Safety, agen-agen AI paling mutakhir saat ini hanya mampu mengotomatisasi kurang dari 3% dari tugas-tugas yang dibutuhkan oleh kontraktor independen rata-rata. Para penulis studi menulis bahwa agen-agen ini "gagal menyelesaikan sebagian besar proyek pada tingkat yang akan diterima sebagai pekerjaan yang ditugaskan dalam lingkungan pekerjaan lepas yang realistis."

    The Remote Labor Index

    Studi yang diposting ke server pra-cetak arXiv pada Kamis dan belum ditinjau sejawat ini menetapkan patokan pengujian untuk sistem AI, yang disebutnya sebagai Remote Labor Index (RLI).

    Patokan ini berfungsi sebagai kerangka kerja kualitatif untuk mengukur kemampuan sistem AI dalam melakukan pekerjaan yang bernilai ekonomis. Hal ini penting di saat beberapa pemimpin teknologi membuat klaim besar tentang dampak disruptif AI terhadap pasar tenaga kerja. Misalnya, CEO Anthropic Dario Amodei mengatakan pada bulan Mei bahwa teknologi ini berpotensi menggantikan hingga separuh dari semua pekerjaan kerah putih dalam lima tahun ke depan.

    Seperti namanya, RLI secara khusus dirancang untuk menilai potensi AI dalam mengotomatisasi pekerjaan jarak jauh dan lepas. Seperti yang dapat dibuktikan oleh siapa pun yang pernah berkecimpung sebagai freelancer, ini adalah mode kerja yang membutuhkan kemandirian dan keterampilan organisasi yang tinggi, di antara keahlian lainnya. Pekerjaan ini juga telah menjadi cukup populer: Sebuah survei terbaru menemukan bahwa hampir 73 juta orang Amerika melakukan pekerjaan lepas pada tahun 2025, yang mewakili hampir 43% dari total tenaga kerja AS per Agustus.

    AI dan Tenaga Kerja Bernilai Ekonomis

    Studi baru ini menilai kinerja enam agen AI terkemuka di industri, termasuk Gemini 2.5 Pro milik Google, GPT-5 dari OpenAI, dan Sonnet 4.5 Anthropic.

    Agen-agen AI, yang tidak seperti chatbot yang lebih terbatas, mampu berinteraksi dengan alat-alat digital (seperti peramban web) dan melakukan tugas-tugas kompleks yang terdiri dari beberapa langkah. Para pengembang teknologi memposisikan agen sebagai langkah evolusioner yang krusial menuju pengembangan Kecerdasan Umum Buatan (AGI).

    AGI adalah istilah yang tidak terdefinisi dengan tepat: Para ahli memperdebatkan apa artinya bagi komputer untuk memiliki "kecerdasan umum" yang sejati, dan apakah hal tersebut mungkin. Namun, salah satu definisi AGI yang lebih umum yang beredar di kalangan teknologi adalah sistem yang dapat menyaingi atau mengungguli manusia dalam setiap tugas yang memiliki nilai ekonomis.

    Jika kita mengambil definisi itu sebagai titik awal, studi RLI baru ini menunjukkan bahwa kita kemungkingan masih jauh dari pembangunan AGI yang sejati. Menurut para penulis, masing-masing dari enam model yang diuji dalam studi ini "jauh dari mampu melakukan tuntutan beragam dari tenaga kerja jarak jauh secara otonom."

    Model-model dievaluasi di 23 kategori pekerjaan lepas, termasuk desain grafis, desain produk, desain berbantuan komputer (CAD), dan pengembangan game. Kategori-kategori tersebut dan kebutuhan keterampilan yang menyertainya diidentifikasi oleh para peneliti menggunakan platform lepas seperti Upwork, "sehingga mendasarkan patokan ini pada nilai ekonomis dan menangkap keragaman serta kompleksitas pasar tenaga kerja jarak jauh yang sebenarnya."

    Model-model diberikan brief proyek beserta file-file yang diperlukan untuk menyelesaikan hasil akhirnya, yang kemudian dinilai secara manual oleh para peneliti dan dibandingkan dengan hasil yang sama yang dibuat oleh freelancer manusia. Tujuannya, menurut para peneliti, adalah untuk mengetahui "apakah hasil dari AI menyelesaikan proyek setidaknya sebaik standar emas manusia — secara spesifik, apakah hasil tersebut akan diterima oleh klien yang wajar sebagai pekerjaan yang ditugaskan."

    Agen-agen tersebut kemudian dibandingkan menggunakan metrik Elo. Manus mencetak skor tertinggi, dengan tingkat otomatisasi 2,5%, diikuti oleh Grok 4 dan Claude Sonnet 2.5, yang keduanya memiliki skor 2,1%.

    Intisari

    Narasi populer seputar otomatisasi AI seringkali menggambarkan tenaga kerja manusia lebih sederhana daripada kenyataannya. Seiring industri AI berupaya mengembangkan sistem yang dapat menyaingi atau melampaui otak manusia, kita semakin menghargai fleksibilitas, dinamisme, dan kompleksitas otak yang luar biasa.

    Beberapa pekerjaan lebih mudah diotomatisasi daripada yang lain, tetapi sebagian besar membutuhkan perpaduan keterampilan teknis dan interpersonal, sehingga lebih rumit daripada yang dapat ditangani oleh sistem AI saat ini.

    Bahkan sistem AI paling canggih saat ini, yang dirancang sebagai agen serba bisa, hanya mampu melakukan sebagian kecil dari tugas-tugas yang dibutuhkan oleh sebagian besar pekerja manusia. Seperti yang ditulis oleh para penulis studi RLI baru dalam laporan mereka, kegagalan agen-agen terkemuka di industri untuk mengotomatisasi kurang dari 3% dari tugas yang dibutuhkan oleh freelancer rata-rata mengungkap "kesenjangan yang lebar" antara janji dan kemampuan nyata AI yang dapat didemonstrasikan. Hal ini terutama benar mengingat bahwa RLI tidak menangkap banyak aspek dari kehidupan kerja sehari-hari sebagian besar freelancer, seperti berkomunikasi dan bernegosiasi dengan klien.

    Namun sekali lagi, ini masih tahap awal. Kemampuan agen berkembang dengan cepat, dan para pengembang teknologi terbesar menginvestasikan miliaran dolar untuk melatih model-model baru yang lebih canggih. Sangat mungkin dalam lima atau sepuluh tahun mendatang, perusahaan-perusahaan akan mempekerjakan freelancer AI. Tetapi untuk saat ini, para kontraktor tampaknya tidak memiliki alasan nyata untuk takut akan pengambilalihan pekerjaan oleh AI.

MEMBACA  PlayStation Vita masih menjadi penguasaTranslate: PlayStation Vita masih memimpin