Kecerdasan Buatan Unggul Kian Andal dalam Tugas-Tugas Profesional

Halo dan selamat datang di Eye on AI. Di edisi ini… sebuah tolok ukur baru dari OpenAI menunjukkan seberapa baik model AI dalam menyelesaikan tugas-tugas profesional… California memiliki undang-undang AI baru… OpenAI meluncurkan Instant Purchases di ChatGPT… dan AI bisa memilih pendiri startup yang sukses lebih baik daripada kebanyakan modal ventura.

CEO Google Sundar Pichai benar ketika dia berkata bahwa meskipun perusahaan AI bercita-cita menciptakan AGI (kecerdasan umum buatan), yang kita miliki sekarang lebih seperti AJI—kecerdasan ‘jagged’ atau tidak merata buatan. Maksud Pichai adalah AI saat ini sangat hebat dalam beberapa hal, termasuk beberapa tugas yang bahkan sulit bagi pakar manusia, tetapi juga performanya buruk dalam tugas-tugas yang bagi manusia terbilang mudah.

Memikirkan AI dengan cara ini sebagian menjelaskan berita-berita yang membingungkan tentang AI belakangan ini—seperti menjuarai olimpiade matematika internasional dan kompetisi coding, sementara banyak proyek AI gagal mencapai return on investment dan orang-orang mengeluh tentang "workslop" buatan AI yang justru menghambat produktivitas.

Salah satu alasan untuk perbedaan kemampuan AI ini adalah karena banyak tolok ukur AI tidak mencerminkan kasus penggunaan dunia nyata. Itulah mengapa alat ukur baru yang diterbitkan OpenAI pekan lalu sangat penting. Dinamai GDPval, tolok ukur ini mengevaluasi model AI terkemuka pada tugas-tugas dunia nyata, yang disusun oleh para ahli dari 44 profesi berbeda, mewakili sembilan sektor ekonomi. Para ahli ini memiliki pengalaman rata-rata 14 tahun di bidangnya.

Berbeda dengan tolok ukur AI tradisional yang mungkin menguji kemampuan model untuk menjawab soal pilihan ganda ujian hukum, penilaian GDPval meminta model AI untuk membuat memo hukum lengkap sepanjang 3.500 kata.

MEMBACA  Pasar konsultan di UK akan stagnan karena klien memotong pengeluaran, temuan studi

OpenAI menguji tidak hanya modelnya sendiri, tetapi juga model dari lab lain, termasuk Google DeepMind’s Gemini 2.5 Pro, Anthropic’s Claude Opus 4.1, dan Grok 4. Dari semuanya, Claude Opus 4.1 secara konsisten performanya terbaik, mengalahkan atau menyamai kinerja pakar manusia pada 47.6% dari total tugas.

Ada banyak perbedaan antar model. Gemini dan Grok sering bisa menyelesaikan antara sepertiga dan seperlima tugas setara atau di atas standar pakar manusia. Sementara performa GPT-5 Thinking OpenAI berada di antara Claude Opus 4.1 dan Gemini. Model OpenAI sebelumnya, GPT-4o, hasilnya paling buruk, hampir tidak bisa menyelesaikan 10% tugas sesuai standar profesional.

Perbedaan besar antar sektor dan profesi

Ada juga sedikit perbedaan antar sektor ekonomi. Model-model AI performa terbaiknya pada tugas dari pemerintah, ritel, dan perdagangan grosir, dan umumnya terburuk pada tugas dari sektor manufaktur.

Untuk beberapa tugas profesional, kinerja Claude Opus 4.1 sangat luar biasa: kinerjanya mengalahkan atau setara manusia untuk 81% tugas dari "counter and rental clerks", 76% tugas dari petugas pengiriman, 70% dari pengembangan perangkat lunak, dan yang menarik, 70% tugas dari pekerjaan investigator dan detektif swasta. GPT-5 Thinking mengalahkan pakar manusia pada 79% tugas yang dilakukan manajer penjualan dan 75% tugas editor.

Di sisi lain, pakar manusia menang dengan mudah. Semua model AI notably buruk dalam melakukan tugas terkait pekerjaan editor film dan video, produser dan sutradara, serta teknisi audio dan video. Model-model AI juga gagal dalam tugas terkait pekerjaan apoteker.

Ketika model AI gagal menyamai atau melampaui kinerja manusia, jarang sekali kegagalan itu dinilai "katastropik" oleh pakar manusia—itu hanya terjadi sekitar 2.7% dari waktu untuk kegagalan GPT-5. Namun respon GPT-5 dinilai "buruk" dalam 26.7% kasus lainnya, dan "dapat diterima tetapi di bawah standar" dalam 47.7% kasus di mana hasil kerja manusia dinilai lebih unggul.

MEMBACA  Galangan kapal UE sedang memperbaiki kapal tanker LNG Rusia di Arktika

Kebutuhan tolok ukur ‘Centaur’

Saya bertanya kepada Erik Brynjolfsson, ekonom Universitas Stanford di Human-Centered AI Institute (HAI), mengenai GDPval dan hasilnya. Dia mengatakan penilaian ini sangat membantu menjembatani kesenjangan yang berkembang antara peneliti AI dan tolok ukur pilihan mereka, yang seringkali sangat teknis tetapi tidak sesuai dengan masalah dunia nyata. Brynjolfsson mengatakan dia pikir GDPval akan "menginspirasi peneliti AI untuk lebih memikirkan bagaimana mendesain sistem mereka agar berguna dalam melakukan pekerjaan praktis, bukan hanya unggul dalam tolok ukur teknis." Dia juga mengatakan bahwa "dalam praktiknya, itu berarti mengintegrasikan teknologi ke dalam alur kerja dan lebih sering daripada tidak, melibatkan manusia secara aktif."

Brynjolfsson mengatakan dia dan rekannya Andy Haupt telah memperjuangkan "Centaur Evaluations" yang menilai seberapa baik manusia berkinerja ketika dipasangkan dengan, dan dibantu oleh, model AI, daripada selalu melihat model AI sebagai pengganti pekerja manusia.

GDPval mengambil beberapa langkah ke arah ini, melihat dalam satu kasus berapa banyak waktu dan uang yang dihemat ketika model OpenAI diperbolehkan mencoba suatu tugas beberapa kali, dengan manusia kemudian datang untuk memperbaiki hasilnya jika tidak memenuhi standar. Di sini, GPT-5 ditemukan menawarkan percepatan 1.5x dan peningkatan biaya 1.5x dibandingkan pakar manusia yang bekerja tanpa bantuan AI.

Tentang penelitian ‘workslop’ AI…

Poin terakhir ini, bersama dengan label "dapat diterima tetapi di bawah standar", mengingatkan saya pada penelitian "workslop" yang keluar pekan lalu. Ini mungkin, pada kenyataannya, yang terjadi dengan beberapa hasil AI di lingkungan perusahaan. Terutama karena model paling mampu—seperti GPT-5, Claude 4.1 Opus, dan Gemini 2.5 Pro—hanya digunakan oleh segelintir perusahaan secara besar-besaran.

MEMBACA  Prabowo Usulkan Penggantian Menu Telur dengan Daging Sapi dalam Program Bansos

Namun, seperti yang ditunjukkan jurnalis Adam Davidson dalam postingan LinkedIn, penelitian "Workslop"—sama seperti penelitian MIT yang terkenal tentang 95% pilot AI gagal menghasilkan ROI—memiliki beberapa kelemahan yang sangat serius. Penelitian "workslop" didasarkan pada survei online terbuka yang menanyakan pertanyaan yang sangat mengarah. Itu pada dasarnya adalah "push poll" yang dirancang untuk menghasilkan judul yang menarik perhatian tentang masalah workslop AI daripada sebuah penelitian yang jujur secara intelektual.

Jika seseorang fokus pada judul-judul seperti ini, sangat mudah untuk melewatkan sisi lain dari apa yang terjadi di AI, yaitu cerita yang diceritakan GDPval: model AI dengan performa terbaik sudah setara dengan keahlian manusia dalam banyak tugas. Ini tidak berarti AI dapat menggantikan para ahli profesional ini dalam waktu dekat. Seperti yang ditunjukkan oleh pekerjaan Brynjolfsson, sebagian besar pekerjaan terdiri dari puluhan tugas berbeda, dan AI hanya dapat menyamai atau mengalahkan kinerja manusia pada beberapa di antaranya. Dalam banyak kasus, manusia perlu terlibat untuk mengoreksi hasil ketika model gagal. Tapi AI terus berkembang, kadang-kadang dengan cepat, di banyak domain—dan semakin banyak hasilnya yang bukan hanya workslop.