Microsoft telah menjadi sorotan banyak tentang bagaimana kecerdasan buatan dapat membantu pemrograman, tetapi dalam dua tahun pertama kecerdasan buatan generatif, sebagian besar itu hanyalah hype. Microsoft mengadakan acara besar merayakan bagaimana Copilot dapat membantu Anda dalam membuat kode, tetapi ketika saya mencoba uji coba pada bulan April 2024, itu gagal dalam keempat tes standar saya. Itu benar-benar gagal. Hancur dan terbakar. Jatuh dari tebing. Ini tampil paling buruk dari semua kecerdasan buatan yang saya uji.
Terlepas dari metafora campuran itu, mari kita tetap fokus pada bisbol. Copilot menukar sepatunya dengan kartu bus. Ini tidak pantas.
Juga: Kecerdasan buatan terbaik untuk pemrograman pada tahun 2025 (dan apa yang tidak boleh digunakan)
Namun, waktu yang dihabiskan di bullpen kehidupan tampaknya telah membantu Copilot. Kali ini, ketika ia muncul untuk uji coba, ia sudah siap dan siap untuk beraksi. Ia melontarkan dengan penuh semangat di bullpen. Ketika tiba saatnya untuk bermain, ia fokus pada bola dan ayunan yang dia tuju. Jelas, ia siap bermain dan mencari peluang untuk mencetak gol.
Namun, apakah ia bisa bertahan dalam uji coba saya? Dengan mata saya sedikit terpejam, saya melangkah ke bukit lempar dan memulai dengan lemparan mudah. Kembali pada 2024, Anda bisa merasakan angin ketika Copilot melangkah dan meleset. Tapi sekarang, pada bulan April 2025, Copilot berhasil menghubungkan dengan bola dan memukulnya lurus dan tepat.
Juga: Bagaimana saya menguji kemampuan pemrograman bot obrolan AI – dan Anda juga bisa
Kami harus mengirim Copilot ke bawah, tetapi ia berjuang kembali ke pertunjukan. Inilah play-by-play-nya.
1. Menulis plugin WordPress
Nah, Copilot tentu telah memperbaiki dirinya sejak uji coba pertamanya pada bulan April 2024. Pada uji coba pertama, ia tidak memberikan kode untuk menampilkan baris acak. Ia menyimpannya dalam nilai, tetapi tidak mengambilnya dan menampilkannya. Dengan kata lain, ia meleset. Ia tidak menghasilkan output.
Inilah hasil dari uji coba terbaru:
Screenshot oleh David Gewirtz/ZDNET
Kali ini, kode tersebut berhasil. Ia meninggalkan baris kosong tambahan secara acak di akhir, tetapi karena telah memenuhi tugas pemrograman, kita akan menyebutnya baik.
Juga: Bagaimana menggunakan ChatGPT untuk menulis kode – dan trik favorit saya untuk debug apa yang dihasilkannya
Streak Copilot yang belum terputus dari kegagalan pemrograman mutlak telah terpecahkan. Mari kita lihat bagaimana hasilnya dalam uji coba lainnya.
2. Menulis ulang fungsi string
Uji coba ini dirancang untuk menguji konversi dollar dan sen. Pada uji coba pertama saya kembali pada April 20224, kode yang dihasilkan oleh Copilot memang menandai kesalahan jika sebuah nilai yang mengandung huruf atau lebih dari satu titik desimal dikirim padanya, tetapi tidak melakukan validasi lengkap. Ia membiarkan hasil yang bisa menyebabkan rutinitas berikutnya gagal.
Juga: Bagaimana saya menggunakan ChatGPT untuk menulis bookmarklet JavaScript kustom
Namun, kali ini, ia melakukannya dengan cukup baik. Ia menjalankan sebagian besar tes dengan benar. Ia mengembalikan nilai false untuk angka dengan lebih dari dua digit di kanan titik desimal, seperti 1,234 dan 1,230. Ia juga mengembalikan nilai false untuk angka dengan nol awal tambahan. Jadi 0,01 diperbolehkan, tetapi 00,01 tidak.
Secara teknis, nilai-nilai ini bisa diubah menjadi nilai mata uang yang dapat digunakan, tetapi tidak pernah buruk bagi rutinitas validasi untuk ketat dalam tesnya. Tujuan utamanya adalah bahwa rutinitas validasi tidak membiarkan nilai melewati yang bisa menyebabkan rutinitas berikutnya crash. Copilot berkinerja baik di sini.
Kami sekarang dua dari dua, sebuah peningkatan besar dibandingkan dengan hasilnya dari uji coba pertamanya.
3. Menemukan bug menjengkelkan
Saya harus memberi tahu Anda bagaimana Copilot pertama kali menjawab ini kembali pada April 2024, karena ini terlalu bagus.
Juga: Mengapa saya baru saja menambahkan Gemini 2.5 Pro ke daftar sangat pendek alat AI yang saya bayar
Ini menguji kemampuan AI untuk berpikir beberapa langkah catur ke depan. Jawaban yang tampaknya jelas bukanlah jawaban yang benar. Saya terjebak oleh itu ketika saya awalnya melakukan debugging masalah yang akhirnya menjadi uji coba ini.
Pada run pertama Copilot, ia menyarankan saya memeriksa ejaan nama fungsi saya dan nama kait WordPress. Kait WordPress adalah hal yang dipublikasikan, jadi Copilot seharusnya bisa mengonfirmasi ejaan. Dan fungsi saya adalah fungsi saya, jadi saya bisa mengeja sesuai keinginan saya. Jika saya salah eja di suatu tempat di kode, IDE akan dengan sangat jelas menunjukkannya.
Dan ia menjadi lebih baik. Saat itu, Copilot juga dengan senang hati mengulangi pernyataan masalah kepada saya, menyarankan saya untuk memecahkan masalah sendiri. Ya, seluruh rekomendasinya adalah agar saya melakukan debugging. Nah, itu sudah jelas. Kemudian, ia berakhir dengan “pertimbangkan untuk mencari dukungan dari pengembang plugin atau forum komunitas. 😊” — dan ya, emoji itu bagian dari respons AI tersebut.
Itu adalah kegagalan yang spektakuler, penuh semangat, dan beremoji. Lihat apa yang saya maksud? Jawaban AI awal, tidak peduli seberapa tidak berguna, seharusnya diabadikan.
Terutama ketika Copilot tidak seceria kali ini. Ia hanya memecahkan masalah. Dengan cepat, bersih, jelas. Selesai.
Screenshot oleh David Gewirtz/ZDNET
Itu membuat Copilot menjadi tiga dari tiga dan dengan tegas mengeluarkannya dari kategori “jangan gunakan alat ini”. Bases terisi penuh. Mari kita lihat apakah Copilot bisa mencetak home run.
4. Menulis sebuah skrip
Ide di balik uji coba ini adalah bahwa ia bertanya tentang alat scripting Mac yang cukup tidak dikenal bernama Keyboard Maestro, serta bahasa scripting Apple AppleScript, dan perilaku scripting Chrome. Untuk catatan, Keyboard Maestro adalah salah satu alasan utama saya menggunakan Mac daripada Windows untuk produktivitas harian saya, karena memungkinkan seluruh OS dan berbagai aplikasi diprogram ulang sesuai kebutuhan saya. Itu begitu kuat.
Dalam hal ini, untuk lulus uji coba, AI harus menjelaskan dengan benar bagaimana menyelesaikan masalah dengan campuran kode Keyboard Maestro, kode AppleScript, dan fungsionalitas API Chrome.
Juga: AI telah berkembang di luar pengetahuan manusia, kata unit DeepMind Google
Dahulu, Copilot tidak melakukannya dengan benar. Ia sepenuhnya mengabaikan Keyboard Maestro (pada saat itu, mungkin tidak ada dalam basis pengetahuannya). Dalam AppleScript yang dihasilkan, di mana saya memintanya untuk hanya memindai jendela saat ini, Copilot mengulangi proses untuk semua jendela, mengembalikan hasil untuk jendela yang salah (yang terakhir dalam rantai).
Tapi tidak sekarang. Kali ini, Copilot melakukannya dengan benar. Ia melakukan persis seperti yang diminta, mendapatkan jendela dan tab yang benar, berbicara dengan Keyboard Maestro dan Chrome dengan benar, dan menggunakan sintaks AppleScript yang sebenarnya untuk AppleScript.
Bases terisi penuh. Home run.
Hasil keseluruhan
Tahun lalu, saya bilang saya tidak terkesan. Bahkan, saya menemukan hasilnya agak memalukan. Tetapi saya juga mengatakan ini:
Ah baiklah, Microsoft memang meningkatkan produknya dari waktu ke waktu. Mungkin tahun depan.
Dalam setahun terakhir, Copilot berubah dari kekalahan menjadi pengguncang papan skor. Ia berubah dari pencetak gol terbanyak di ruang bawah tanah menjadi pengejar pennant di bawah sorotan lampu.
Bagaimana dengan Anda? Apakah Anda pernah membawa Copilot atau asisten pemrograman AI lainnya ke lapangan belakangan ini? Apakah menurut Anda ia akhirnya siap untuk liga besar, atau masih duduk di bangku cadangan? Apakah Anda pernah mendapat kekalahan atau home run menggunakan AI untuk pengembangan? Dan apa yang diperlukan untuk salah satu alat ini mendapatkan tempat di lineup awal Anda? Beri tahu kami di kolom komentar di bawah.
Anda dapat mengikuti pembaruan proyek saya sehari-hari di media sosial. Pastikan untuk berlangganan buletin pembaruan mingguan saya, dan ikuti saya di Twitter/X di @DavidGewirtz, di Facebook di Facebook.com/DavidGewirtz, di Instagram di Instagram.com/DavidGewirtz, dan di YouTube di YouTube.com/DavidGewirtzTV.