GPT-5.4 Raih Kemenangan Telak Atas Kinerja Manusia dalam Tes OpenAI

OpenAI

Ikuti ZDNET: Tambahkan kami sebagai sumber pilihan di Google.

—

Kesimpulan utama ZDNET

Skor 83% GPT-5.4 mengisyaratkan AI kini menyaingi profesional ahli.
Tes mencakup sembilan industri dan 44 pekerjaan dunia nyata.
Kemampuan baru meningkatkan pengkodean, alat, dan kontrol komputer.
—

Rasanya baru kemarin OpenAI merilis model GPT-5.2 ke dunia. Nyatanya, belum genap tiga bulan. Pada Kamis ini, OpenAI meluncurkan model thinking dari GPT-5.4.

Juga: Cara beralih dari ChatGPT ke Claude: Memindahkan memori dan pengaturan Anda itu mudah

Apa artinya tepatnya? Dalam artikel ini, saya akan menyentuh sekilas pengumuman resmi dan detail ketersediaannya, lalu menyelami detail yang menurut saya paling mencengangkan: GPT-5.4 dapat menyamai atau mengungguli profesional manusia 83% dari waktu, menurut OpenAI.

(Keterangan: Ziff Davis, perusahaan induk ZDNET, mengajukan gugatan pada April 2025 terhadap OpenAI, dengan tuduhan melanggar hak cipta Ziff Davis dalam pelatihan dan pengoperasian sistem AI-nya.)

Detail Ketersediaan

OpenAI menyatakan GPT-5.4 adalah "model frontier paling mampu dan efisien untuk pekerjaan profesional yang kompleks." Di dalam ChatGPT, perusahaan ini menyebut model ini GPT 5.4 Thinking. Ada juga rilis untuk API, di dalam alat pemrograman Codex, dan dalam versi GPT-5.4 Pro.

Juga: 10 rahasia ChatGPT Codex yang baru saya ketahui setelah 60 jam pair programming dengannya

Dalam hal kinerja keseluruhan, perusahaan tersebut menyebutkan bahwa GPT-5.4 "18% lebih kecil kemungkinannya mengandung kesalahan, dan klaim individual 33% lebih kecil kemungkinannya salah dibandingkan GPT-5.2, berdasarkan prompt di mana pengguna sebelumnya menandai kesalahan faktual."

Selalu menyenangkan ketika kecerdasan buatan yang sangat kuat mengurangi frekuensi membuat-buat hal.

Untuk ketersediaan, perusahaan akan menawarkan GPT-5.4 via API pada hari Jumat. Model ini akan "diluncurkan bertahap" di seluruh tingkat berbayar ChatGPT dan di Codex, yang kemungkinan berarti akan segera muncul bagi sebagian besar pengguna.

Tapi Bagaimana dengan GPT-5.3?

Saya tidak senang mengatakannya, tetapi konvensi penamaan OpenAI membuat pusing. Dalam hal penamaan, rasanya mereka memecat semua manajer produk berpengalaman dan menggantinya dengan instansi GPT-3.5 dari tahun 2022.

Jadi, oke, OpenAI merilis GPT-5.3-Codex bulan lalu. Itu adalah versi pertama Codex yang menggunakan dirinya sendiri untuk membantu membangun dirinya sendiri. Skynet, ada yang ingat?

Lalu, dua hari yang lalu… dua hari lalu mereka merilis GPT-5.3 Instant. Menurut perusahaan, ini "membuat percakapan sehari-hari lebih konsisten membantu dan lancar." Tersedia untuk semua pengguna ChatGPT. Di API, dirilis sebagai gpt-5.3-chat-latest. Bukan gpt-5.3-chat-instant, karena itu akan terlalu masuk akal.

Dan sekarang, kita punya GPT-5.4. Jadi dalam rentang antara Selasa dan Kamis, OpenAI telah merilis model GPT-5.3 dan GPT-5.4. Anda harus menjadi AI sendiri untuk bisa mengikutinya.

Karena kejahatan terhadap versioning yang koheren seperti ini membuat saya gugup, saya harus menanyakan hal ini kepada tim komunikasi OpenAI. Mereka cukup sabar dan baik hati untuk menjawab:

GPT-5.4 adalah model penalaran mainline pertama kami yang menggabungkan kemampuan pengkodean frontier dari gpt-5.3-codex, dan yang sedang diluncurkan di ChatGPT, API, dan Codex. Kami menyebutnya GPT-5.4 untuk merefleksikan lompatan itu, dan untuk menyederhanakan pilihan antar model saat menggunakan Codex. Seiring waktu, Anda dapat mengharapkan model Instant dan model Thinking kami berkembang pada kecepatan yang berbeda.

Saya tetap tidak suka. Jika Instant dan Thinking benar-benar dua produk terpisah, mereka harus memiliki penomoran versi yang benar-benar terpisah. 5.3 dan 5.4 terlalu dekat dan membingungkan. Jika mereka dianggap sebagai varian berbeda dari produk yang sama, mereka harus berbagi nomor versi.

Juga: Apakah ChatGPT Plus masih layak $20 Anda? Saya bandingkan dengan paket Free, Go, dan Pro

Tapi hey. OpenAI bernilai sekitar $840 miliar, dan saya memiliki Ford berusia 14 tahun. Saya tahu apa? Mari kita lanjutkan ke bagian di mana kita semua mengkhawatirkan keamanan pekerjaan kita.

Menguji Kemampuan AI Dunia Nyata

Pada September lalu, OpenAI memperkenalkan tes evaluasi AI baru bernama GPTval. Ini adalah tes yang dirancang untuk mengukur seberapa baik model AI melakukan "tugas dunia nyata yang bernilai ekonomis."

Tes ini mengukur kinerja di sembilan industri dan 44 pekerjaan. OpenAI memilih industri berdasarkan kontribusinya 5% atau lebih terhadap produk domestik bruto AS. Setiap industri memiliki pekerjaan unik. Untuk tes ini, perusahaan memilih hingga lima pekerjaan, memilih yang memiliki kurang dari 40% pekerjaan fisik atau manual, dan yang upah total serta kompensasi keseluruhannya tertinggi.

Juga: Saya berhenti menggunakan ChatGPT untuk segalanya: Model AI ini mengunggulinya dalam penelitian, pengkodean, dan lainnya

Pada dasarnya mereka memilih cross-section pekerjaan terkait pengetahuan di mana AI dapat memiliki dampak terbesar "pada produktivitas dunia nyata." Maksudnya adalah model GPT dapat membantu profesional menyelesaikan lebih banyak pekerjaan, tetapi tidak terlalu jauh untuk menyimpulkan bahwa pekerjaan ini juga yang paling berisiko digantikan atau ditingkatkan oleh AI.

Berikut bagaimana pekerjaan-pekerjaan itu masuk ke dalam industrinya.
Keuangan dan asuransi: Perwakilan layanan pelanggan, analis keuangan dan investasi, manajer keuangan, penasihat keuangan pribadi, agen penjualan sekuritas, komoditas, dan layanan keuangan.
Perdagangan eceran: Apoteker, penyelia lini pertama pekerja penjualan eceran, manajer umum dan operasi, detektif swasta dan penyelidik.
Perdagangan grosir: Manajer penjualan, juru tulis pesanan, penyelia lini pertama penjualan non-eceran, perwakilan penjualan (grosir dan manufaktur, kecuali produk teknis dan ilmiah), perwakilan penjualan (grosir dan manufaktur, produk teknis dan ilmiah).
Real estat dan persewaan: Koncierge, manajer properti, real estat, dan asosiasi komunitas, agen penjualan real estat, broker real estat, petugas konter dan persewaan.
Pemerintahan: Pekerja rekreasi, petugas kepatuhan, penyelia lini pertama polisi dan detektif, manajer layanan administratif, pekerja sosial anak, keluarga, dan sekolah.
Manufaktur: Insinyur mesin, insinyur industri, pembeli dan agen pembelian, petugas pengiriman, penerimaan, dan persediaan, penyelia lini pertama pekerja produksi dan operasi.
Layanan profesional, ilmiah, dan teknis: Pengembang perangkat lunak, pengacara, akuntan dan auditor, manajer sistem komputer dan informasi, spesialis manajemen proyek.
Perawatan kesehatan dan bantuan sosial: Perawat terdaftar, nurse practitioner, manajer layanan medis dan kesehatan, penyelia lini pertama dukungan administrasi dan kantor, sekretaris medis dan asisten administrasi.
Informasi: Teknisi audio dan video, produser dan sutradara, analis berita, reporter, dan jurnalis, editor film dan video, editor.
Saya bisa bertele-tela tentang pekerjaan mana yang paling berdampak di berbagai industri, tetapi pemilihan ini bagus untuk menguji kinerja model secara keseluruhan.

Tes itu sendiri menarik baik dalam cara penyusunannya maupun pengukurannya.

OpenAI bekerja dengan profesional berpengalaman di setiap pekerjaan untuk membuat serangkaian tugas yang "mencerminkan pekerjaan sehari-hari mereka." Serangkaian tugas tersebut melalui banyak putaran tinjauan ahli dan menghasilkan serangkaian tugas kompleks yang telah ditinjau penuh per industri.

Salah satu tugas insinyur manufaktur, misalnya, melibatkan desain jig (memandu alat) atau fixture (memegang pekerjaan) untuk menyederhanakan penggulungan masuk dan keluar kabel spool untuk operasi penambangan bawah tanah.

Juga: Trik ChatGPT sederhana ini membantu Anda mendeteksi penipuan sebelum mengklik atau merespons

Pemberian nilai untuk setiap tes ini dilakukan oleh profesional manusia di setiap pekerjaan. Para penilai tidak diberi tahu apakah hasilnya berasal dari AI, atau dari profesional lain di bidang mereka.

Selain itu, OpenAI membangun sistem penilaian otomatis berdasarkan karya para penilai manusia, sehingga manusia tidak perlu meluangkan waktu untuk menilai setiap iterasi model AI. Saya yakin OpenAI membangun sistem otomatis ini dengan semua pengaman yang sesuai, tetapi saya khawatir beberapa tingkat bias bawaan mungkin terjadi ketika membiarkan AI menilai kinerja AI.

Ethan Mollick, profesor asociat dan ko-direktur Generative AI Lab di Wharton, menggambarkan tes GDPval ini sebagai "mungkin ukuran kemampuan AI yang paling relevan secara ekonomi."

83% dari Waktu

Kecepatan peningkatannya luar biasa. GPT-5.1 dirilis pada November dan memiliki skor GDPval 38,8%. Pada Desember, hanya sebulan kemudian, kinerja GPT-5.2 meledak hampir dua kali lipat, menjadi 70,9%.

Profesor Mollick menggambarkan pentingnya GDPval yang dijalankan pada GPT-5.2. Ia berkata, "Dalam kompetisi langsung dengan ahli manusia pada tugas yang membutuhkan 4-8 jam bagi manusia untuk dikerjakan, GPT-5.2 menang 71% dari waktu menurut penilaian manusia lain."

Sekarang, di awal Maret, kurang dari tiga bulan setelah GPT-5.2, GPT-5.4 menyamai atau melampaui kinerja profesional manusia 83% dari waktu!

Juga: Cara belajar ChatGPT dalam satu jam – gratis

Dengan kata lain, hampir setiap kali tugas yang sama diberikan kepada profesional manusia berpengalaman dan GPT-5.4, AI tersebut baik mengimbangi atau melampaui profesional manusia berpengalaman, setidaknya menurut penilainya, yang bisa jadi manusia atau AI.

Renungkanlah itu selama beberapa menit. Kita tidak hanya berbicara tentang tugas pemrograman. Kita berbicara tentang beragam industri dan rentang pekerjaan bernilai tinggi yang lebih luas.

Menurut Daniel Swiecki, kepala Solusi Kecerdasan Buatan di Walleye Capital, "Pada evaluasi keuangan dan Excel internal kami yang paling sulit, GPT-5.4 mengungguli model sebelumnya, meningkatkan akurasi sebesar 30 poin persentase. Perubahan langkah dalam keandalan ini secara material memperluas otomatisasi kami atas pembaruan model dan analisis skenario untuk investor fundamental."

Yang mengerikan adalah kinerja semacam ini dapat membawa kita ke dua arah. Di satu sisi, ini dapat membantu meningkatkan profesional manusia, memberi orang berpengalaman kemampuan untuk menyelesaikan lebih banyak pekerjaan, lebih cepat. Di sisi lain, ini bisa dilihat sebagai pertanda masa depan di mana AI secara sederhana menggantikan manusia dalam pekerjaan bernilai tinggi dan berketerampilan tinggi.

Masa depan mungkin tidak akan sepenuhnya satu atau sepenuhnya lainnya. Tetapi bahkan ketika OpenAI melakukan victory lap untuk rilis terbarunya, kita yang menghidupi keluarga berdasarkan pembangunan keterampilan seumur hidup dalam profesi tersebut harus terhenyak, menarik napas dalam-dalam yang penuh kekhawatiran, dan berharap yang terbaik.

Secara pribadi, pendekatan saya adalah mempelajari semua yang saya bisa, secepat mungkin, dan menggunakan AI sebanyak mungkin. Itu membantu saya menggambarkan semua ini kepada Anda, tetapi juga membantu saya meningkatkan produktivitas individual saya menggunakan sumber daya AI, terutama untuk pemrograman.

Juga: Saya pengguna power ChatGPT: Ini 7 pengaturan berguna yang dimatikan secara default

Tetapi saya khawatir. AI slop adalah hal yang nyata, dan seiring kualitas AI slop semakin meningkat, setiap dari kita akan bersaing dengan superbrain raksasa yang tidak pernah tidur, tidak pernah makan, dan meningkat dengan kecepatan yang hampir supranatural.

Lebih Banyak Kemampuan

Selain kinerja keseluruhan, GPT-5.4 meningkatkan kemampuan inti lainnya.
Penggunaan alat: GPT-5.4 meningkatkan cara agent AI memilih dan menggunakan alat eksternal, memungkinkan mereka menyelesaikan alur kerja multi-langkah dengan lebih akurat dan efisien sambil mengurangi penggunaan token.
Penglihatan komputer: Model baru ini meningkatkan pemahaman visual, memungkinkannya menafsirkan gambar kompleks dengan lebih baik, mengurai dokumen, dan bernalar tentang informasi visual dengan akurasi lebih tinggi.
Kemampuan penggunaan komputer: Di dalam API dan Codex, GPT-5.4 memperkenalkan kemampuan penggunaan komputer asli yang memungkinkan agent berinteraksi dengan sistem perangkat lunak melalui tangkapan layar, perintah keyboard dan mouse, serta alur kerja otomatis di berbagai aplikasi.
Pengkodean: GPT-5.4 menggabungkan kekuatan pengkodean GPT-5.3-Codex dengan penalaran dan penggunaan alat yang lebih baik, membantu pengembang membangun, men-debug, dan mengulangi tugas perangkat lunak kompleks dengan lebih efektif.
Tetaplah menyimak. GPT-5.4 Thinking akan segera hadir di antarmuka ChatGPT Anda. Biarkan persaingan dimulai.

Apa Pendapat Anda?

Apa pendapat Anda tentang klaim GPT-5.4 bahwa ia dapat menyamai atau mengungguli profesional manusia 83% dari waktu? Apakah itu tampak seperti tolok ukur yang berarti untuk pekerjaan dunia nyata?

Juga: Chatbot AI terbaik 2026: Diuji dan diulas oleh ahli

Sudahkah Anda mulai mengintegrasikan AI ke dalam alur kerja profesional Anda sendiri? Jika ya, di mana ia paling membantu atau masih kurang? Ke depan, apakah Anda melihat alat seperti ini sebagian besar meningkatkan keahlian manusia, atau pada akhirnya menggantikan sebagian darinya?

Bagikan pemikiran dan pengalaman Anda di komentar di bawah.

—

Anda dapat mengikuti pembaruan proyek harian saya di media sosial. Pastikan untuk berlangganan buletin pembaruan mingguan saya, dan ikuti saya di Twitter/X di @DavidGewirtz, di Facebook di Facebook.com/DavidGewirtz, di Instagram di [Instagram.com

MEMBACA Kamera Tahan Air Terbaik untuk Tahun 2024

Detail Ketersediaan

Tapi Bagaimana dengan GPT-5.3?

Menguji Kemampuan AI Dunia Nyata

83% dari Waktu

Lebih Banyak Kemampuan

Apa Pendapat Anda?