Benarkah Opus 4.5 “Model Terbaik di Dunia untuk Coding”? Ini Gagal dalam Setengah Tes Saya.

Cuplikan layar oleh David Gewirtz/ZDNET

Ikuti ZDNET: Tambahkan kami sebagai sumber pilihan di Google.

—

Kesimpulan Penting ZDNET:

Opus 4.5 gagal dalam separuh tes coding saya, meski klaimnya terdengar hebat.
Masalah penanganan file membuat pengujian plugin dasar hampir mustahil dilakukan.
Dua tes berhasil dilalui, namun isu keandalan masih mendominasi cerita.
—

Harus saya akui, saya pernah mendapatkan hasil coding yang cukup memuaskan dengan model AI Sonnet yang lebih rendah dari Claude. Namun, entah mengapa, model unggulan mereka, Opus, tidak pernah menunjukkan performa bagus dalam tes-tes saya. Biasanya, kita berharap model coding yang lebih canggih akan lebih baik daripada varian yang lebih murah, tapi tidak dengan Opus.

Kini, kami menguji Opus 4.5. Anthropic, perusahaan di balik Claude, mengklaim – dan ini kutipan langsung – "Model terbaru kami, Claude Opus 4.5, tersedia hari ini. Ia cerdas, efisien, dan merupakan model terbaik di dunia untuk coding, agents, dan penggunaan komputer."

Model terbaik di dunia untuk coding? Tidak juga. Setidaknya, belum.

Bagi Anda yang mengikuti tulisan saya, Anda tahu bahwa saya memiliki serangkaian empat tes coding tingkat dasar yang saya jalankan secara rutin pada model-model AI. Tes ini menguji berbagai keterampilan dan pengetahuan kerangka kerja yang sangat sederhana, namun kadang bisa mengecoh AI.

Singkatnya: Opus 4.5 gagal total dalam satu tes, memberikan jawaban yang biasa saja dan tidak cukup baik pada tes kedua, dan berhasil pada dua tes sisanya. Dengan skor 50%, jelas ini bukan "model terbaik di dunia untuk coding."

Mari kita bahas lebih dalam.

Tes 1: Membuat Plugin WordPress

Tes 1 meminta AI untuk membuat plugin WordPress sederhana yang menampilkan antarmuka di dashboard admin dan mengacak nama. Satu-satunya bagian yang sedikit rumit adalah jika ada lebih dari satu nama yang cocok, mereka harus dipisahkan, namun semua nama tetap ditampilkan dalam daftar.

Opus 4.5 langsung menyelami pembuatan plugin ini. Saya telah melihat versi yang dibangun dalam satu file PHP sederhana dan berfungsi baik. Tapi, memadukan PHP untuk back-end, JavaScript untuk bagian interaktif, dan CSS untuk styling juga memungkinkan. Itulah yang dilakukan Opus.

Opus menulis file PHP 312 baris, file JavaScript 178 baris, dan file CSS 133 baris. Setidaknya, itu yang terjadi pada percobaan kedua.

Untuk trik pertamanya, Opus 4.5 menggabungkan ketiga file tersebut menjadi satu dan mengatakan saya bisa mengunduh serta langsung menginstalnya. Sayangnya, saya tidak bisa mengunduh file tersebut. Saya mencoba beberapa kali, dan Opus 4.5 terus merespons dengan "Gagal mengunduh file."

Lalu saya mencoba mengakses file menggunakan Files Workspace. Saya mengklik "Lihat folder plugin Line Randomizer" di jendela respons Opus 4.5, hanya untuk mendapatkan layar kosong besar dengan tulisan "Konten file tidak tersedia."

Oke, baiklah. Setelah menempelkan prompt tes asli saya, saya memperhatikan Opus 4.5 menampilkan kode saat sedang dibuat. Begitu selesai, kodenya disembunyikan. Agaknya, Opus 4.5 berasumsi proses unduh akan berjalan lancar.

Untuk mendapatkan kode sebenarnya, saya harus meminta kepada Opus 4.5: "Berikan masing-masing dari ketiga file tersebut secara terpisah, agar saya bisa copy-paste dari sini."

Ia pun melakukannya. Kode PHP berada di area jendela kecilnya sendiri, dan saya bisa menyalinnya ke text editor. Begitu juga dengan kode CSS. Namun, kode JavaScript menyertakan beberapa dokumentasi (yang tidak dikomentari) tentang struktur file yang disarankan.

Seandainya saya tidak cepat memeriksa keseluruhan kode file, saya mungkin akan langsung mencoba menjalankannya. Sudah pasti, itu akan berakhir dengan kegagalan.

Namun, ada kabar baik. Setelah semua keributan dan menghapus baris dokumentasi asing yang akan menggagalkannya, saya akhirnya berhasil membuat plugin WordPress terpasang dan menampilkan antarmuka pengguna.

Mengingat ia diberi gaya dengan 133 baris CSS, Anda mungkin mengira tampilannya akan lebih bagus, tapi setidaknya ada yang berfungsi. Yah, tidak sepenuhnya.

Begitu saya menempelkan nama-nama uji dan mengklik "Acak Baris", tidak ada yang terjadi. "Hapus Semua" juga tidak berfungsi.

Mari kita hitung berapa banyak kegagalan yang terjadi: Unduhan tidak bekerja saat ia memberi tautan unduh. Lalu, saat saya minta kode secara terpisah, ia mencampur respons chatbot ke dalam kode. Kemudian, setelah saya memperbaikinya dan menjalankan tes, fungsi dasarnya tidak bekerja. Antarmuka muncul, tapi kodenya tidak jalan.

Seperti kata Mythbusters dulu, "Kegagalan selalu merupakan sebuah opsi."

Tes 2: Menulis Ulang Fungsi String

Tes 2 meminta AI untuk memperbaiki sedikit kode JavaScript yang memvalidasi input mata uang dolar dan sen dengan tidak benar. Kode yang saya berikan tidak mengizinkan input sen sama sekali. Tugas AI adalah memberikan kode yang berfungsi.

Fungsi ini bertugas memeriksa input pengguna. Awalnya berada di plugin donasi, jadi tujuannya adalah memastikan pendonor memasukkan jumlah yang sah dan tidak error jika seseorang memasukkan huruf atau angka dengan salah.

Kode yang dikembalikan Opus 4.5 menolak terlalu banyak contoh kasus tepi. Ia tidak mengizinkan "12." (dua digit diikuti titik desimal), meskipun itu jelas setara dengan $12. Ia tidak mengizinkan ".5", meskipun itu jelas setara dengan 50 sen. Ia tidak menerima "000.5", meski menerima "0.5". Dan jika seseorang mengetik "12.345", ia tidak memotong setengah sen terakhir (atau membulatkannya), melainkan langsung menolak inputnya.

Oh, dan jika tidak ada nilai yang diberikan, atau nilai string yang diuji ternyata null (nilai kosong), kodenya akan crash. Bukan sekadar mengembalikan error, tapi benar-benar crash.

Itu memberikan kegagalan kedua untuk "model terbaik di dunia untuk coding".

Tes 3 dan 4

Tes 3 meminta AI untuk mengidentifikasi penyebab bug dalam kode, tetapi membutuhkan pengetahuan kerangka kerja PHP dan WordPress yang cukup baik. Ini adalah analisis multi-tahap di mana yang terlihat jelas bukanlah masalahnya. Bug-nya tersembunyi lebih dalam pada cara kerangka kerja bekerja.

Opus 4.5 lulus tes ini dengan baik.

Tes 4 meminta AI untuk bekerja dengan tiga program: AppleScript, Chrome, dan utilitas bernama Keyboard Maestro. Intinya, ia diminta membuat Keyboard Maestro berinteraksi dengan AppleScript untuk menemukan dan mengaktifkan tab tertentu di Chrome.

Secara mengejutkan, karena tes ini sering mengecoh AI lain, Opus 4.5 berhasil menjawab pertanyaan ini dengan sempurna. Ia memahami Keyboard Maestro dan tidak membuat kesalahan sensitivitas huruf yang biasa dilakukan AI lain.

Kesimpulan untuk Opus 4.5

Opus 4.5 seharusnya menjadi karya besar Anthropic. Dalam lingkungan agentic dengan Claude Code, dan diawasi oleh programmer profesional yang bersedia meminta Claude menulis ulang hasilnya hingga kodenya berfungsi, mungkin hasilnya akan cukup bagus.

Saya sendiri telah menggunakan Claude Code dan Sonnet 4.5 dalam antarmuka terminal agentic dengan hasil yang cukup mengesankan. Tapi hasilnya tidak selalu benar. Saya harus mengirim Claude kembali untuk memperbaiki kodenya tiga, empat, lima, enam, bahkan sepuluh kali terkadang, untuk mendapatkan jawaban yang bisa digunakan.

Dalam artikel ini, saya hanya menguji Opus 4.5 di chatbot. Saya memang mengirimnya kembali sekali untuk memberikan kode yang bisa saya akses. Namun secara keseluruhan, ia gagal 50% dari waktu. Ditambah lagi, dalam tes pertama, ia menunjukkan ketidaksiapannya untuk antarmuka chatbot yang sederhana.

Saya yakin Anthropic akan memperbaikinya seiring waktu, tapi hingga hari ini, saya jelas tidak bisa melaporkan bahwa Opus 4.5 sudah siap untuk digunakan secara serius. Saya telah mengirimkan pesan ke Anthropic meminta komentar. Jika perusahaan tersebut membalas, saya akan memperbarui artikel ini dengan tanggapannya.

Tunggu kelanjutannya.

Apakah Anda telah mencoba Opus 4.5 atau model lain dari Anthropic untuk pekerjaan coding langsung? Bagaimana hasil Anda dibandingkan dengan temuan saya di sini? Apakah Anda mengalami masalah serupa dengan penanganan file atau keandalan kode, atau pengalaman Anda lebih lancar? Dan menurut Anda, di mana posisi klaim "model terbaik di dunia untuk coding" ini berdasarkan pengujian Anda sendiri? Bagikan pemikiran Anda di komentar di bawah.

—

Anda bisa mengikuti perkembangan proyek saya sehari-hari di media sosial. Pastikan untuk berlangganan buletin mingguan saya, dan ikuti saya di Twitter/X di @DavidGewirtz, di Facebook di Facebook.com/DavidGewirtz, di Instagram di Instagram.com/DavidGewirtz, di Bluesky di @DavidGewirtz.com, dan di YouTube di YouTube.com/DavidGewirtzTV.

MEMBACA Fenomena Cincin Pintar: Tren atau Revolusi Kesehatan?

Tes 1: Membuat Plugin WordPress

Tes 2: Menulis Ulang Fungsi String

Tes 3 dan 4

Kesimpulan untuk Opus 4.5