Masa Depan Koding yang Didukung AI Sudah Dekat

Saya bukan seorang coder yang terampil, tetapi berkat program gratis bernama SWE-agent, saya baru saja bisa memperbaiki masalah yang rumit melibatkan file yang salah nama dalam repositori kode yang berbeda di situs hosting software GitHub.

Saya menunjukkan SWE-agent ke masalah di GitHub dan melihat saat program tersebut melalui kode dan berpikir tentang apa yang mungkin salah. SWE-agent dengan benar menentukan bahwa akar masalah dari bug tersebut adalah baris yang menunjuk ke lokasi yang salah untuk sebuah file, kemudian menavigasi melalui proyek, menemukan file tersebut, dan memperbaiki kode sehingga semuanya berjalan dengan baik. Ini adalah jenis hal yang seorang pengembang yang tidak berpengalaman (seperti saya) mungkin habiskan berjam-jam mencoba mendebag.

Banyak coder sudah menggunakan kecerdasan buatan untuk menulis software lebih cepat. GitHub Copilot adalah lingkungan pengembang terintegrasi pertama yang memanfaatkan kecerdasan buatan, tetapi banyak IDE sekarang secara otomatis menyelesaikan potongan kode ketika seorang pengembang mulai mengetik. Anda juga dapat bertanya kepada kecerdasan buatan tentang kode atau meminta saran tentang bagaimana cara meningkatkan apa yang sedang Anda kerjakan.

Musim panas lalu, John Yang dan Carlos Jimenez, dua mahasiswa PhD Princeton, mulai membahas apa yang diperlukan agar kecerdasan buatan menjadi seorang insinyur software di dunia nyata. Hal ini mendorong mereka dan orang lain di Princeton untuk menciptakan SWE-bench, seperangkat benchmark untuk menguji alat kecerdasan buatan dalam berbagai tugas pemrograman. Setelah merilis benchmark pada bulan Oktober, tim mengembangkan alat mereka sendiri—SWE-agent—untuk menguasai tugas-tugas ini.

SWE-agent (“SWE” singkatan dari “software engineering”) adalah salah satu dari sejumlah program pengkodean kecerdasan buatan yang jauh lebih kuat yang melampaui hanya menulis baris kode dan bertindak sebagai agen software, memanfaatkan alat-alat yang diperlukan untuk mengatur, mendebag, dan mengorganisir software. Startup Devin menjadi viral dengan video demo salah satu alat seperti itu pada bulan Maret.

MEMBACA  TV LG terbaik sedang dijual sekarang

Ofir Press, anggota tim Princeton, mengatakan bahwa SWE-bench bisa membantu OpenAI menguji kinerja dan keandalan agen software. “Ini hanya pendapat saya, tetapi saya pikir mereka akan merilis agen software sangat segera,” kata Press.

OpenAI menolak untuk berkomentar, tetapi sumber lain yang mengetahui aktivitas perusahaan tersebut, yang meminta namanya tidak disebutkan, memberi tahu WIRED bahwa “OpenAI pasti sedang bekerja pada agen pengkodean.”

Sama seperti GitHub Copilot menunjukkan bahwa model bahasa besar dapat menulis kode dan meningkatkan produktivitas programmer, alat seperti SWE-agent mungkin membuktikan bahwa agen kecerdasan buatan dapat bekerja dengan handal, mulai dari membangun dan memelihara kode.

Sejumlah perusahaan sedang menguji agen untuk pengembangan software. Di puncak papan peringkat SWE-bench, yang mengukur skor berbagai agen pengkodean untuk berbagai tugas, ada satu dari Factory AI, sebuah startup, diikuti oleh AutoCodeRover, sebuah entri open source dari tim di National University of Singapore.

Pemain besar juga turut serta. Alat penulisan software yang disebut Amazon Q adalah salah satu yang terbaik di SWE-bench. “Pengembangan software jauh lebih dari sekadar mengetik,” kata Deepak Singh, vice president pengembangan software di Amazon Web Services.

Dia menambahkan bahwa AWS telah menggunakan agen untuk menerjemahkan seluruh tumpukan software dari satu bahasa pemrograman ke bahasa lain. “Seperti memiliki insinyur yang sangat cerdas duduk di sebelah Anda, menulis dan membangun aplikasi bersama Anda,” kata Singh. “Saya pikir itu cukup transformatif.”

Sebuah tim di OpenAI baru-baru ini membantu kru Princeton meningkatkan benchmark untuk mengukur kehandalan dan efektivitas alat seperti SWE-agent, menunjukkan bahwa perusahaan tersebut mungkin juga mengasah agen untuk menulis kode atau melakukan tugas lain di komputer.

MEMBACA  Bulan K3: Membangun Kesadaran Kesehatan yang Penting bagi Petugas Pemilihan

Singh mengatakan bahwa sejumlah pelanggan sudah membangun aplikasi backend yang kompleks menggunakan Q. Eksperimen saya sendiri dengan SWE-bench menunjukkan bahwa siapa pun yang mengode akan segera ingin menggunakan agen untuk meningkatkan kecakapan pemrograman mereka, atau berisiko tertinggal.