Saya Menguji Kemampuan Coding GPT-5 dan Hasilnya Buruk—Saya Tetap Pakai GPT-4o (Untuk Sementara)

Vaselena/Getty Images

Intisari utama ZDNET

Model unggulan terbaru OpenAI, GPT-5, gagal dalam separuh tes pemrograman saya. Sebelumnya, rilis OpenAI selalu memberikan hasil nyaris sempurna. Kini, dengan adanya opsi fallback ke LLM lain, ada alternatif lain.

Jadi, GPT-5 akhirnya dirilis. Sudah keluar. Sudah diluncurkan. Jadi perbincangan di dunia maya. Dan ada beberapa masalah. Saya tak mau bertele-tele—GPT-5 gagal di separuh tes pemrograman saya. Ini hasil terburuk yang pernah dicapai model unggulan OpenAI dalam tes yang saya rancang dengan hati-hati.

Sebelum masuk ke detail, mari bahas satu fitur kecil lain yang juga agak bermasalah. Perhatikan tombol Edit di bagian atas kode yang dihasilkannya.

Screenshot oleh David Gewirtz/ZDNET

Mengklik tombol Edit membawa Anda ke editor kode yang cukup bagus. Di sini, saya mengganti kolom Author langsung di hasil ChatGPT.

Screenshot oleh David Gewirtz/ZDNET

Awalnya terlihat bagus, tapi akhirnya sia-sia. Saat saya menutup editor, muncul pertanyaan apakah saya ingin menyimpan. Saya jawab iya. Lalu pesan tak membantu ini muncul.

Screenshot oleh David Gewirtz/ZDNET

Saya tak bisa kembali ke sesi awal. Harus mengulang prompt awal dan meminta GPT-5 mengerjakannya lagi.

Tunggu dulu. Masih ada lagi. Mari kita bahas hasil tes saya…

1. Menulis plugin WordPress

Ini adalah tes pertama saya untuk menguji kemampuan coding AI. Tes inilah yang membuat saya pertama kali merasakan "dunia akan berubah," dan saat itu menggunakan GPT-3.5.

Tes berikutnya dengan prompt sama tapi model AI berbeda memberikan hasil beragam. Ada yang bagus, ada yang tidak. Beberapa AI, seperti milik Microsoft dan Google, semakin membaik seiring waktu.

MEMBACA Robot vakum Eufy ini dengan unit portabel bawaan dijual dengan harga diskon $200

Model ChatGPT selalu menjadi standar emas untuk tes ini sejak awal. Itu yang membuat hasil GPT-5 semakin aneh.

Jadi, coding dengan GPT-5 sebagian berhasil. GPT-5 menghasilkan satu blok kode yang bisa saya jalankan. UI-nya berfungsi.

Saat saya memasukkan nama tes, hitungan baris diperbarui secara dinamis, meskipun tertulis "Line to randomize" alih-alih "Lines to randomize."

Screenshot oleh David Gewirtz/ZDNET

Tapi saat saya klik Randomize, tak ada yang terjadi. Malah diarahkan ke tools.php. Apa?? ChatGPT tak pernah bermasalah dengan tes ini—baik GPT-3.5, GPT-4, atau GPT-4o. Jadi GPT-5 yang dinanti-nanti OpenAI langsung gagal? Aduh.

Saya memberi GPT-5 prompt ini:

"Saat saya klik randomize, saya diarahkan ke http://testsite.local/wp-admin/tools.php. Daftar hasil acak tak muncul. Bisakah diperbaiki?"

Hasilnya berupa baris kode patch. Saya kurang suka karena pengguna harus mengganti baris kode secara manual.

Screenshot oleh David Gewirtz/ZDNET

Lalu saya minta plugin lengkap. Kali ini berhasil.

Screenshot oleh David Gewirtz/ZDNET

Kali ini, baris benar-benar diacak. Saat ada duplikat, dipisahkan sesuai instruksi. Akhirnya.

Maaf, OpenAI. Saya harus memberi nilai gagal untuk tes ini. Kesalahan kecil seperti bentuk jamak "line" masih bisa dimaklumi. Tapi plugin yang awalnya tak bekerja sama sekali itu kegagalan serius, meski akhirnya bisa diperbaiki.

Bagaimanapun, ini kemunduran.

2. Menulis ulang fungsi string

Tes kedua ini meminta AI menulis ulang fungsi string untuk memeriksa dolar dan sen dengan lebih baik. Kode asli yang diminta untuk ditulis ulang tak memungkinkan input sen (hanya bilangan bulat).

MEMBACA Kekasih Sigma, kamera cantik yang bodoh yang tidak kamu tahu kamu perlukan

Screenshot oleh David Gewirtz/ZDNET

GPT-5 berhasil di tes ini. Hasilnya minimal karena tidak ada pengecekan error—tak memeriksa input non-string, spasi berlebih, pemisah ribuan, atau simbol mata uang.

Tapi itu bukan yang saya minta. Saya meminta menulis ulang fungsi yang memang tak ada pengecekan error. GPT-5 melakukan persis seperti permintaan tanpa tambahan. Saya justru senang karena AI tak tahu apakah kode sebelumnya sudah menangani itu.

GPT-5 lulus tes ini.

3. Menemukan bug menjengkelkan

Tes ini muncul karena saya kesulitan menemukan bug yang tak jelas dalam kode saya. Tanpa membahas detail framework WordPress, jawaban yang terlihat jelas bukanlah solusi yang benar.

Diperlukan pengetahuan mendalam tentang cara filter WordPress bekerja. Tes ini sering jadi batu sandungan bagi banyak model AI.

Namun, GPT-5—seperti GPT-4 dan GPT-4o sebelumnya—memahami masalahnya dan memberikan solusi jelas.

GPT-5 lulus tes ini.

4. Menulis skrip

Tes ini meminta AI menggunakan alat scripting Mac yang kurang dikenal, Keyboard Maestro, plus AppleScript dan perilaku scripting Chrome.

Ini menguji sejauh mana pengetahuan AI, pemahaman struktur halaman web, dan kemampuan menulis kode di tiga lingkungan terkait.

Banyak AI gagal di tes ini, biasanya karena tak kenal Keyboard Maestro. GPT-3.5 tak tahu, tapi ChatGPT berhasil sejak GPT-4. Sampai sekarang.

Di mana masalahnya? GPT-5 berhasil di bagian Keyboard Maestro. Tapi kodenya salah besar—bahkan salah paham soal case sensitivity di AppleScript.

Screenshot oleh David Gewirtz/ZDNET

AI ini sampai membuat properti fiktif. Salah satu kasus di mana AI dengan percaya diri memberikan jawaban yang sepenuhnya salah.

MEMBACA Penawaran Kecantikan Cyber Monday Terbaik, Rekomendasi WIRED (2025)

AppleScript secara native case-insensitive. Agar peka huruf besar/kecil, harus pakai blok "considering case". Ini yang terjadi:

Screenshot oleh David Gewirtz/ZDNET

Pesan error merujuk ke judul artikel saya karena itu jendela aktif di Chrome. Fungsi ini memeriksa jendela depan dan melakukan aksi berdasarkan judul.

Screenshot oleh David Gewirtz/ZDNET

Tapi kesalahan case bukan satu-satunya. GPT-5 juga memakai variabel searchTerm tanpa mendefinisikannya—kesalahan fatal di bahasa pemrograman mana pun.

Gagal total.

Internet telah berbicara

OpenAI terjebak kepercayaan diri berlebihan seperti AI-nya. Mereka memaksa semua pengguna beralih ke GPT-5 dan memutus akses ke GPT-4o. Saya bayar $200/bulan untuk akun ChatGPT Pro. Jumat lalu, saya tak bisa kembali ke GPT-4o untuk coding. Begitu juga yang lain.

Tapi ada sedikit perlawanan pengguna. Sedikit dalam arti seluruh internet ribut. Sabtunya, ChatGPT menambahkan opsi baru.

Screenshot oleh David Gewirtz/ZDNET

Untuk mengaktifkannya, buka pengaturan ChatGPT dan nyalakan "Show legacy models". Lalu, pilih model yang diinginkan dari menu. Catatan: opsi ini hanya untuk pengguna berbayar. Pengguna gratis harus menerima apa adanya.

Sejak awal 2023, ChatGPT jadi standar emas alat pemrograman menurut tes LLM saya.

Sekarang? Saya tak yakin. Ini baru sehari setelah peluncuran GPT-5, jadi kemungkinan akan membaik. Tapi untuk sementara, saya tetap pakai GPT-4o untuk coding—meski kemampuan analisis mendalam GPT-5 menarik.

Bagaimana dengan Anda? Sudah coba GPT-5 untuk tugas pemrograman? Lebih baik atau buruk dari versi sebelumnya? Dapat kode yang langsung bekerja, atau harus dibimbing memperbaik