Asumsi Keliru di Balik Postingan Viral Matt Shumer tentang Dampak Mendesak AI

AI Influencer Matt Shumer menulis blog viral di X tentang potensi AI untuk mengganggu dan akhirnya mengotomatiskan hampir semua pekerjaan pengetahuan. Blog itu mendapatkan lebih dari 55 juta tayangan dalam 24 jam terakhir.

Esai Shumer yang 5.000 kata itu benar-benar menyentuh saraf. Ditulis dengan nada terburu-buru, blog itu dibuat sebagai peringatan untuk teman dan keluarga tentang bagaimana pekerjaan mereka akan berubah total. (Fortune juga menerbitkan versi adaptasi dari tulisan Shumer sebagai artikel komentar.)

“Pada 5 Februari, dua lab AI besar merilis model baru di hari yang sama: GPT-5.3 Codex dari OpenAI, dan Opus 4.6 dari Anthropic,” tulisnya. “Dan sesuatu tersambung. Bukan seperti saklar lampu… lebih seperti saat kamu sadar air telah naik di sekitarmu dan sekarang sudah sampai dada.”

Shumer berkata programmer adalah ‘canary in the coal mine’ untuk setiap profesi lain. “Pengalaman yang dialami pekerja teknologi selama setahun terakhir, melihat AI berubah dari ‘alat bantu’ menjadi ‘melakukan pekerjaanku lebih baik dariku’, adalah pengalaman yang akan segera dialami semua orang,” tulisnya. “Hukum, keuangan, kedokteran, akuntansi, konsultasi, menulis, desain, analisis, layanan pelanggan. Bukan dalam sepuluh tahun. Orang-orang yang membangun sistem ini mengatakan satu sampai lima tahun. Beberapa bilang kurang. Dan melihat apa yang saya saksikan dalam beberapa bulan terakhir, saya pikir ‘lebih cepat’ lebih mungkin.”

Tapi meski viral, pernyataan Shumer bahwa apa yang terjadi dengan pemrograman adalah awal dari apa yang akan terjadi di bidang lain—dan yang penting, bahwa ini akan terjadi hanya dalam beberapa tahun—tampaknya salah menurut saya. Saya menulis ini sebagai seseorang yang menulis sebuah buku (Mastering AI: A Survival Guide to Our Superpowered Future) yang memprediksi AI akan mengubah pekerjaan pengetahuan secara besar-besaran pada 2029, sesuatu yang masih saya percaya. Saya hanya tidak berpikir otomatisasi penuh proses yang mulai kita lihat dengan pemrograman akan datang ke bidang lain secepat yang Shumer klaim. Dia mungkin benar arahnya, tapi nada suram pesannya bagi saya seperti menakut-nakuti, dan sebagian besar berdasarkan asumsi yang salah.

Tidak semua pekerjaan pengetahuan seperti pengembangan perangkat lunak

Shumer berkata bahwa alasan kode adalah area di mana kemampuan agen otonom memiliki dampak terbesar sejauh ini adalah karena perusahaan AI memberi banyak perhatian padanya. Mereka melakukan itu, kata Shumer, karena perusahaan model frontier melihat pengembangan perangkat lunak otonom sebagai kunci untuk bisnis mereka sendiri, memungkinkan model AI membantu membangun generasi AI berikutnya. Dalam hal ini, taruhan perusahaan AI tampaknya berhasil: kecepatan mereka menghasilkan model yang lebih baik meningkat pesat dalam setahun terakhir. Dan baik OpenAI maupun Anthropic telah mengatakan bahwa kode di balik model AI terbaru mereka sebagian besar ditulis oleh AI sendiri.

Shumer mengatakan bahwa meski pemrograman adalah indikator utama, peningkatan kinerja yang sama yang terlihat dalam pemrograman akan datang di domain lain, meski kadang sekitar satu tahun lebih lambat dari peningkatan di pemrograman. (Shumer tidak memberikan penjelasan yang jelas mengapa jeda ini mungkin ada, meski dia menyiratkan itu hanya karena perusahaan model AI mengoptimalkan untuk pemrograman dulu, lalu akhirnya meningkatkan model di area lain.)

MEMBACA Peluang Wells Fargo di Walmart (WMT) di Tengah Latar Sektor yang Beragam

Tapi apa yang tidak dikatakan Shumer adalah bahwa alasan lain kemajuan dalam mengotomatiskan pengembangan perangkat lunak lebih cepat daripada di area lain: pemrograman memiliki beberapa metrik kuantitatif kualitas yang tidak ada di domain lain. Dalam pemrograman, jika kodenya sangat buruk, kode itu tidak akan bisa dikompilasi sama sekali. Kode yang tidak memadai juga mungkin gagal dalam berbagai tes unit yang dapat dilakukan agen pemrograman AI. (Shumer tidak menyebutkan bahwa agen pemrograman hari ini kadang berbohong tentang melakukan tes unit—yang adalah salah satu dari banyak alasan pengembangan perangkat lunak otomatis tidak sempurna.)

Banyak pengembang mengatakan kode yang ditulis AI sering cukup baik untuk lulus tes dasar ini tapi tetap tidak bagus: tidak efisien, tidak elegan, dan yang paling penting, tidak aman, membuka organisasi yang menggunakannya terhadap risiko keamanan siber. Tapi dalam pemrograman masih ada cara untuk membangun agen AI otonom untuk menangani beberapa masalah ini. Model dapat membuat sub-agen yang memeriksa kode yang telah ditulisnya untuk kerentanan keamanan siber atau mengkritik kode tersebut tentang seberapa efisien kode itu. Karena kode perangkat lunak dapat diuji dalam lingkungan virtual, ada banyak cara untuk mengotomatiskan proses pembelajaran penguatan–di mana agen belajar dari pengalaman untuk memaksimalkan imbalan, seperti poin dalam game–yang digunakan perusahaan AI untuk membentuk perilaku model AI setelah pelatihan awal. Itu artinya penyempurnaan agen pemrograman dapat dilakukan secara otomatis dalam skala besar.

Menilai kualitas di banyak domain pekerjaan pengetahuan lain jauh lebih sulit. Tidak ada kompiler untuk hukum, tidak ada tes unit untuk rencana perawatan medis, tidak ada metrik pasti untuk seberapa bagus kampanye pemasaran sebelum diuji pada konsumen. Jauh lebih sulit di domain lain untuk mengumpulkan data yang cukup dari ahli profesional tentang seperti apa “bagus” itu. Perusahaan AI sadar mereka punya masalah mengumpulkan data semacam ini. Itu sebabnya mereka sekarang membayar jutaan kepada perusahaan seperti Mercor, yang kemudian mengeluarkan uang besar untuk merekrut akuntan, profesional keuangan, pengacara dan dokter untuk membantu memberikan umpan balik pada keluaran AI agar perusahaan AI dapat melatih model mereka lebih baik.

Memang benar ada tolok ukur yang menunjukkan model AI terbaru membuat kemajuan cepat dalam tugas profesional di luar pemrograman. Salah satu yang terbaik adalah tolok ukur GDPVal OpenAI. Itu menunjukkan bahwa model frontier dapat mencapai kesetaraan dengan ahli manusia di berbagai tugas profesional, dari pekerjaan hukum kompleks hingga manufaktur hingga perawatan kesehatan. Sejauh ini, hasil untuk model yang dirilis OpenAI dan Anthropic pekan lalu belum keluar. Tapi untuk pendahulunya, Claude Opus 4.5 dan GPT-5.2, model mencapai kesetaraan dengan ahli manusia di berbagai tugas, dan mengalahkan ahli manusia di banyak domain.

MEMBACA Pendapatan McDonald's, Starbucks, Yum Brands: Dampak Material Protes Israel/Gaza

Jadi, bukankah ini menunjukan Shumer benar? Yah, tidak terlalu cepat. Ternyata di banyak profesi, seperti apa “bagus” itu sangat subjektif. Ahli manusia hanya setuju satu sama lain dalam penilaian mereka terhadap keluaran AI sekitar 71% dari waktu. Sistem penilaian otomatis yang digunakan OpenAI untuk GDPVal memiliki variasi lebih besar, menyetujui penilaian hanya 66% dari waktu. Jadi angka-angka utama tentang seberapa bagus AI dalam tugas profesional itu bisa memiliki margin kesalahan yang besar.

Perusahaan butuh keandalan, tata kelola, dan kemampuan audit

Variansi ini adalah salah satu hal yang menghalangi perusahaan untuk menggunakan alur kerja yang sepenuhnya otomatis. Bukan cuma keluaran model AI itu sendiri mungkin salah. Tapi, seperti yang disarankan tolok ukur GDPVal, setara dengan tes unit otomatis dalam banyak konteks profesional mungkin menghasilkan hasil yang salah sepertiga dari waktu. Kebanyakan perusahaan tidak bisa mentolerir kemungkinan pekerjaan berkualitas rendah dikirimkan dalam sepertiga kasus. Risikonya terlalu besar. Kadang, risikonya mungkin hanya reputasi. Di kasus lain, itu bisa berarti kehilangan pendapatan langsung. Tapi dalam banyak tugas profesional, konsekuensi dari keputusan yang salah bisa lebih parah: sanksi profesional, tuntutan hukum, kehilangan lisensi, kehilangan perlindungan asuransi, dan bahkan, risiko bahaya fisik dan kematian—kadang untuk banyak orang.

Selain itu, mencoba menjaga manusia dalam proses untuk meninjau keluaran otomatis bermasalah. Model AI hari ini benar-benar semakin baik. Halusinasi terjadi lebih jarang. Tapi itu justru memperburuk masalah. Saat kesalahan buatan AI menjadi lebih jarang, peninjau manusia menjadi puas diri. Kesalahan AI menjadi lebih sulit dikenali. AI hebat dalam menjadi salah dengan percaya diri dan menyajikan hasil yang sempurna bentuknya tapi kurang substansi. Itu melewati beberapa kriteria perantara yang digunakan manusia untuk mengkalibrasi tingkat kewaspadaan mereka. Model AI sering gagal dengan cara yang asing dibandingkan cara manusia gagal dalam tugas yang sama, yang membuat menjaga dari kesalahan buatan AI menjadi lebih menantang.

Untuk semua alasan ini, sampai setara dengan tes unit otomatis pengembangan perangkat lunak dikembangkan untuk lebih banyak bidang profesional, menggunakan alur kerja AI otomatis dalam banyak konteks pekerjaan pengetahuan akan terlalu berisiko untuk kebanyakan perusahaan. AI akan tetap menjadi asisten atau kopilot untuk pekerja pengetahuan manusia dalam banyak kasus, daripada mengotomatiskan pekerjaan mereka sepenuhnya.

Ada juga alasan lain bahwa jenis otomatisasi yang diamati pengembang perangkat lunak tidak mungkin untuk kategori lain pekerjaan pengetahuan. Dalam banyak kasus, perusahaan tidak dapat memberikan akses kepada agen AI ke jenis alat dan sistem data yang mereka butuhkan untuk melakukan alur kerja otomatis. Perlu dicatat bahwa pendorong paling antusias otomatisasi AI sejauh ini adalah pengembang yang bekerja sendiri atau untuk startup asli AI. Pemrogram perangkat lunak ini sering tidak terbebani oleh sistem warisan dan utang teknis, dan sering tidak memiliki banyak sistem tata kelola dan kepatuhan untuk dilalui.

MEMBACA Pasar mengincar konsolidasi, bukan kekalahan

Organisasi besar saat ini sering kekurangan cara untuk menghubungkan sumber data dan alat perangkat lunak bersama. Di kasus lain, kekhawatiran tentang risiko keamanan dan tata kelola berarti perusahaan besar, terutama di sektor yang diatur seperti perbankan, keuangan, hukum, dan perawatan kesehatan, tidak mau mengotomatisasi tanpa jaminan kuat bahwa hasilnya akan andal dan bahwa ada proses untuk memantau, mengatur, dan mengaudit hasilnya. Sistem untuk melakukan ini saat ini masih primitif. Sampai sistem itu menjadi jauh lebih matang dan kuat, jangan harap perusahaan akan mengotomatiskan sepenuhnya produksi keluaran yang penting bagi bisnis atau diatur.

Kritikus bilang Shumer tidak jujur tentang kegagalan LLM

Saya bukan satu-satunya yang menemukan analisis Shumer salah. Gary Marcus, profesor emeritus ilmu kognitif di Universitas New York yang menjadi salah satu skeptikus utama model bahasa besar hari ini, mengatakan kepada saya postingan X Shumer adalah “hype yang dipersenjatai.” Dan dia menunjuk pada masalah bahkan dengan argumen Shumer tentang pengembangan perangkat lunak otomatis.

“Dia tidak memberikan data aktual untuk mendukung klaim ini bahwa sistem pemrograman terbaru dapat menulis aplikasi kompleks utuh tanpa membuat kesalahan,” kata Marcus.

Dia menunjukkan bahwa Shumer salah menggambarkan tolok ukur terkenal dari organisasi evaluasi AI METR yang mencoba mengukur kemampuan pemrograman otonom model AI yang menunjukkan kemampuan AI berlipat ganda setiap tujuh bulan. Marcus mencatat bahwa Shumer gagal menyebutkan bahwa tolok ukur itu memiliki dua ambang batas akurasi, 50% dan 80%. Tapi kebanyakan bisnis tidak tertarik pada sistem yang gagal separuh waktu, atau bahkan yang gagal satu dari setiap lima upaya.

“Tidak ada sistem AI yang dapat diandalkan melakukan setiap tugas lima jam panjang yang dapat dilakukan manusia tanpa kesalahan, atau bahkan mendekati, tapi kamu tidak akan tahu itu membaca blog Shumer, yang sebagian besar mengabaikan semua halusinasi dan kesalahan bodoh yang sangat umum dalam pengalaman sehari-hari,” kata Marcus.

Dia juga mencatat bahwa Shumer tidak mengutip penelitian terbaru dari Caltech dan Stanford yang mencatat berbagai kesalahan penalaran dalam model AI canggih. Dan dia menunjukkan bahwa Shumer pernah ketahuan sebelumnya membuat klaim berlebihan tentang kemampuan model AI yang dia latih. “Dia suka menjual besar. Itu tidak berarti kita harus menganggapnya serius,” kata Marcus.

Kritikus lain dari blog Shumer menunjukkan bahwa analisis ekonominya tidak historis. Setiap revolusi teknologi lainnya, dalam jangka panjang, menciptakan lebih banyak pekerjaan daripada yang dihilangkannya. Connor Boyack, presiden Libertas Institute, lembaga pemikir kebijakan di Utah, menulis seluruh postingan blog tandingan yang membuat argumen ini.

Jadi, ya, AI mungkin siap mengubah pekerjaan. Tapi jenis otomatisasi tugas penuh yang mulai diamati beberapa pengembang perangkat lunak mungkin untuk beberapa tugas? Untuk kebanyakan pekerja pengetahuan, terutama yang tertanam dalam organisasi besar, itu akan memakan waktu jauh lebih lama daripada yang disiratkan Shumer.