Alat Ulasan Kode Claude yang Baru Gunakan Agen AI untuk Periksa Pull Request dari Bug

Anthropic / Elyse Betters Picaro / ZDNET

Ikuti ZDNET: Tambahkan kami sebagai sumber pilihan di Google.

Intisari ZDNET
Anthropic meluncurkan agen AI untuk meninjau pull request pengembang.
Uji internal melipattigakan umpan balik tinjauan kode yang bermakna.
Tinjauan otomatis dapat menangkap bug kritis yang terlewatkan oleh manusia.

Anthropic hari ini mengumumkan fitur beta baru bernama Code Review yang dibangun ke dalam Claude Code untuk pengguna paket Teams dan Enterprise. Ini adalah alat perangkat lunak baru yang menggunakan agen-agen yang bekerja dalam tim untuk menganalisis blok kode baru yang telah diselesaikan guna mencari bug dan masalah potensial lainnya.

Apa itu pull request?

Untuk memahami penawaran baru Anthropic ini, Anda perlu memahami konsep pull request. Dan itu mengingatkan saya pada kisah tentang seorang pria bernama Linus.

Dahulu kala, Linus Torvalds, sang pencipta Linux, menghadapi masalah. Dia mengelola banyak kontribusi untuk sistem operasi open source Linux. Semua perubahan menjadi sulit dikendalikan. Sistem kontrol kode sumber (sebuah metode untuk mengelola perubahan kode sumber) sebenarnya telah ada cukup lama sebelum itu, tetapi mereka memiliki masalah besar. SCCS yang lama itu tidak dirancang untuk mengelola pengembangan terdistribusi oleh para koder di seluruh dunia.

Juga: Saya menggunakan Claude Code untuk ‘vibe code’ sebuah aplikasi Mac dalam 8 jam, tetapi itu lebih banyak kerja daripada keajaiban

Jadi, Linus menciptakan Git. Jika Anda seorang koder, Anda pasti kenal Git. Ini adalah mekanisme koordinasi dasar untuk perubahan kode. Dan jika Anda mengira Linus adalah dewa coding hanya karena Linux, penciptaan Git dan keturunannya, khususnya GitHub, seharusnya menempatkannya di puncak Gunung Olympus. Dia menciptakan bukan hanya satu, tetapi dua teknologi yang mengubah dunia.

Hari ini, hampir setiap proyek besar menggunakan GitHub atau salah satu pesaingnya. GitHub (yang berbeda dari Git) adalah layanan cloud terpusat yang menyimpan repositori kode yang dikelola oleh Git. Beberapa tahun lalu, GitHub dibeli oleh Microsoft, memicu berbagai teori konspirasi suram. Tetapi Microsoft telah terbukti menjadi pengelola yang baik atas sumber daya berharga ini, dan GitHub terus berjalan, mengelola kode dunia.

Semua itu membawa kita kembali ke pull request, yang dikenal sebagai PR dalam bahasa koder. Sebuah pull request dimulai ketika seorang programmer ingin memasukkan kode baru atau yang telah diubah ke dalam repositori kode. Alih-alih hanya menggabungkannya ke dalam jalur utama, sebuah PR memberi tahu pengawas repo bahwa ada sesuatu yang baru, siap untuk ditinjau.

Juga: Saya mencoba hemat $1.200 dengan ‘vibe coding’ gratis – dan cepat menyesal

Catatan singkat: bagi koder, PR adalah singkatan untuk pull request. Bagi pemasar, PR berarti public relations. Saat Anda membaca tentang teknologi, Anda akan melihat kedua singkatan ini, jadi perhatikan konteksnya untuk membedakan keduanya.

Terkadang, kode diperiksa dengan sangat cermat sebelum digabungkan ke dalam basis kode utama. Tetapi di waktu lain, kode hanya distempel dan digabungkan begitu saja. Tinjauan kode, meski diperlukan, juga membosankan dan memakan waktu.

Tentu saja, biaya dari sekadar menyetujui sebuah PR bisa menjadi bencana. Anda mungkin mengirimkan kode yang penuh bug, kehilangan data, atau merusak sistem pengguna. Paling baik, kode yang bermasalah hanya menyebalkan. Paling buruk, itu dapat menyebabkan kerusakan katastrofik.

MEMBACA Ulasan Sistem Pengisian Nirkabel Razer HyperFlux V2: Mousepad Seharga $120

Di sinilah Claude Code Review baru dari Anthropic hadir.

Tinjauan kode di Anthropic

Dalam artikel saya, 7 teknik coding AI yang saya gunakan untuk menghasilkan produk nyata dan andal – dengan cepat, teknik bonus saya adalah menggunakan AI untuk tinjauan kode. Sebagai pengembang tunggal, saya tidak menggunakan proses tinjauan kode yang diformalkan seperti yang diperkenalkan Anthropic.

Saya hanya memberi tahu sesi AI baru untuk melihat kode saya dan memberi tahu saya apa yang tidak beres. Terkadang saya menggunakan AI yang sama (misalnya, Claude Code untuk melihat kode buatan Claude), dan di waktu lain saya menggunakan AI yang berbeda (seperti ketika saya menggunakan Codex dari OpenAI untuk meninjau kode yang dihasilkan Claude Code). Itu jauh dari tinjauan yang komprehensif, tetapi hampir setiap kali saya meminta tinjauan, salah satu AI menemukan sesuatu yang perlu diperbaiki.

Kemampuan Claude Code Review yang baru ini dimodelkan berdasarkan proses yang digunakan oleh Anthropic secara internal. Perusahaan pada dasarnya telah memproduktikan metodologi internalnya sendiri. Menurut Anthropic, para pelanggan "Mengatakan bahwa pengembang kami terbentang tipis, dan banyak PR hanya mendapat sekilas pandang daripada pembacaan mendalam."

Juga: Cara beralih dari ChatGPT ke Claude: Mentransfer memori dan pengaturan Anda itu mudah

AI Tinjauan Kode yang agenik baru ini mampu memberikan cakupan tinjauan otomatis yang lebih dalam sebelum memerlukan keputusan manusia.

Anthropic menyatakan bahwa output kode per insinyur Anthropic telah meningkat 200% dalam setahun terakhir, meningkatkan tekanan pada peninjau manusia. Masya Allah? Perusahaan telah menggunakan AI-nya sendiri untuk menulis kode, yang mempercepat produksi kode, sehingga perubahan dan blok kode baru datang lebih cepat dari sebelumnya.

Anthropic melaporkan bahwa sistem Code Review baru dijalankan di hampir setiap pull request secara internal. Ketika sebuah PR ditinjau, peninjau manusia sering membuat komentar tentang masalah yang mereka lihat, yang perlu diperbaiki kembali oleh sang koder.

Sebelum menjalankan Code Review, koder Anthropic mendapatkan kembali komentar tinjauan "substantif" sekitar 16% dari waktu. Dengan Code Review, koder mendapatkan kembali komentar substantif 54% dari waktu. Meski ini sepertinya berarti lebih banyak pekerjaan untuk koder, yang sebenarnya terjadi adalah hampir tiga kali lipat jumlah ‘oops’ coding telah tertangkap sebelum menyebabkan kerusakan.

Juga: Saya menggunakan Claude Code untuk ‘vibe code’ sebuah aplikasi Apple Watch hanya dalam 12 jam – alih-alih 2 bulan

Menurut Anthropic, ukuran PR internal memengaruhi tingkat temuan tinjauan. Pull request besar dengan lebih dari 1.000 baris yang diubah menunjukkan temuan 84% dari waktu. Pull request kecil di bawah 50 baris menghasilkan temuan 31% dari waktu. Insinyur Anthropic "sebagian besar setuju dengan apa yang diungkapkannya: kurang dari 1% temuan ditandai sebagai salah."

Hei, ketika saya ngoding, bahkan jika saya menambahkan hanya satu baris kode, ada kemungkinan saya memperkenalkan bug. Pengujian dan tinjauan kode sangat penting jika Anda tidak ingin ribuan pengguna menyerbu Anda dengan garpu rumput dan obor virtual. Jangan tanya bagaimana saya tahu.

MEMBACA Kamala Harris akan menentang tawaran $15 miliar dari Nippon Steel untuk US Steel

Contoh masalah yang terungkap selama pengujian

Saya selalu terpesona dengan apa yang dialami orang lain saat melakukan pekerjaan mereka. Anthropic memberikan beberapa contoh masalah yang diidentifikasi Code Review selama pengujian awalnya.

Dalam satu kasus, perubahan satu baris tampaknya rutin. Biasanya akan disetujui dengan cepat. Tetapi Code Review menandainya sebagai kritis. Ternyata perubahan kecil ini akan merusak autentikasi untuk layanan tersebut. Karena Code Review menangkapnya, masalah itu diperbaiki sebelum diterapkan. Koder aslinya mengatakan bahwa mereka tidak akan menemukan kesalahan itu sendiri.

Juga: Saya mencoba pesaing Claude Code yang lokal, open source, dan sepenuhnya gratis – begini hasilnya

Contoh lain terjadi ketika kode enkripsi sistem file sedang diatur ulang dalam sebuah produk open source. Menurut laporan, "Code Review mengungkap bug yang sudah ada sebelumnya dalam kode yang berdekatan: ketidakcocokan tipe yang secara diam-diam menghapus cache kunci enkripsi pada setiap sinkronisasi."

Ini yang kami sebut silent killer dalam coding. Itu bisa mengakibatkan kehilangan data, penurunan kinerja, dan risiko keamanan. Anthropic menggambarkannya sebagai "Masalah laten dalam kode yang kebetulan disentuh oleh PR, jenis hal yang tidak akan langsung dicari oleh peninjau manusia yang memindai set perubahan."

Jika itu tidak tertangkap dan diperbaiki, itu akan menjadi hari yang sangat buruk bagi seseorang (atau segerombolan orang).

Cara kerja sistem tinjauan multi-agen

Code Review berjalan cukup cepat, menyelesaikan tinjauan yang cukup kompleks dalam sekitar 20 menit. Ketika sebuah pull request dibuka, Code Review memulai sekelompok agen yang menganalisis kode secara paralel.

Berbagai agen mendeteksi bug potensial, memverifikasi temuan untuk menyaring positif palsu, dan mengurutkan masalah berdasarkan tingkat keparahan. Hasilnya dikonsolidasikan sehingga semua hasil dari semua agen muncul sebagai satu komentar ringkasan pada pull request, bersama dengan komentar sebaris untuk masalah tertentu.

Juga: Cara menginstal dan mengonfigurasi Claude Code, langkah demi langkah

Dalam sebuah demo, Anthropic menunjukkan bahwa komentar ringkasan juga dapat menyertakan arahan perbaikan. Jadi jika Code Review menemukan bug, itu dapat diberikan kepada Claude Code untuk diperbaiki. Perusahaan mengatakan bahwa tinjauan berskala dengan kompleksitas: pull request yang lebih besar menerima analisis yang lebih dalam dan lebih banyak agen.

Anthropic sepertinya sangat suka meluncurkan banyak agen. Di masa lalu, saya mengalami kesulitan yang cukup serius dalam mengelola mereka setelah diluncurkan. Bahkan, teknik pertama yang saya bagikan dalam artikel 7 teknik coding saya adalah secara khusus menyuruh Claude Code untuk menghindari meluncurkan agen secara paralel.

Ada beberapa fitur manajemen tugas internal di Claude (perintah /tasks, misalnya), tetapi saya lebih suka melihat dasbor manajemen tugas yang lebih komprehensif sebelum mengandalkan hasil dari puluhan agen yang diluncurkan.

Model biaya dan kontrol administratif

Tinjauan ditagih berdasarkan penggunaan token. Harga berskala dengan ukuran dan kompleksitas pull request yang dianalisis, tetapi perusahaan mengatakan bahwa sebuah tinjauan kode biasanya berbiaya antara $15 dan $25. Dalam beberapa hal, ini bisa menjadi sangat mahal dengan sangat cepat.

MEMBACA Mengapa Bagian Antartika Ini Mengalirkan Darah Merah

Salah satu Substack terkait teknik yang paling populer adalah The Pragmatic Engineer. Dalam sebuah artikel, Gergely Orosz mengatakan bahwa insinyur Anthropic biasanya masing-masing menghasilkan sekitar lima PR per hari. Dalam praktiknya, pengembang tipikal yang tidak menggunakan dukungan coding AI menghasilkan paling banyak satu atau dua per minggu.

Juga: Ingin ‘vibe coding’ lokal? Tumpukan AI ini mungkin menggantikan Claude Code dan Codex – secara gratis

Sebagai perhitungan cepat, katakanlah sebuah perusahaan memiliki seratus pengembang, masing-masing menghasilkan satu PR sehari, selama lima hari seminggu. Dalam contoh fantasi kita, insinyur perangkat lunak mendapat libur akhir pekan. Itu akan mengarah ke 500 PR seminggu, atau 2.000 per bulan. Dengan rata-rata $20 per PR, jumlah PR Code Review itu dapat menghabiskan biaya sekitar $40.000 sebulan, atau $480.000 per tahun bagi perusahaan contoh ini.

Itu mungkin terlihat banyak. Tapi kemudian pertimbangkan biaya dari bug katastrofik yang bocor ke pelanggan, dan berapa banyak biaya yang mungkin timbul dalam dolar nyata dan nilai merek reputasi untuk memperbaikinya, dan itu mulai terlihat terjangkau.

Jelas Anthropic telah menemukan pusat profit baru. Bahkan pada tingkat pengeluaran itu, mungkin worth it bagi perusahaan untuk secara aktif menggunakan Code Review.

Perusahaan mengatakan bahwa ada cara untuk mengontrol pengeluaran dan penggunaan, termasuk:

Batas organisasi bulanan: Tentukan total pengeluaran bulanan di semua tinjauan.
Kontrol tingkat repositori: Aktifkan tinjauan hanya pada repositori yang Anda pilih.
Dasbor analitik: Lacak PR yang ditinjau, tingkat penerimaan, dan total biaya tinjauan.

Pemeriksaan otomatis

Administrator dengan paket Team dan Enterprise dapat mengaktifkan Code Review melalui pengaturan Claude Code dan instalasi aplikasi GitHub. Setelah diaktifkan, tinjauan secara otomatis dijalankan pada pull request baru tanpa konfigurasi pengembang tambahan. Itulah sebagian alasan mengapa batas penggunaan dan kontrol tingkat repositori menjadi cukup penting untuk manajemen biaya.

Bagaimana dengan Anda?

Apakah Anda sudah menggunakan alat AI untuk meninjau kode atau pull request Anda? Apakah Anda akan mempercayai sistem multi-agen otomatis untuk menandai bug dan masalah keamanan sebelum manusia melihat kodenya? Menurut Anda, apakah membayar $15 hingga $25 per pull request untuk tinjauan otomatis masuk akal, atau akankah biayanya bertambah terlalu cepat?

Juga: Claude Code menghasilkan $1B yang menakjubkan dalam 6 bulan – dan aplikasi iPhone buatan AI saya sendiri menunjukkan alasannya

Jika Anda seorang pengembang, apakah peninjau kode AI sudah menangkap masalah yang mungkin Anda lewatkan? Seperti yang saya katakan, saya hanya menggunakan prompting dasar untuk menghasilkan tinjauan kode, tetapi itu tentu membantu saya menghasilkan kode yang lebih baik.

Bagaimana dengan Anda? Beri tahu kami di komentar di bawah.

Anda dapat mengikuti pembaruan proyek harian saya di media sosial. Pastikan untuk berlangganan buletin pembaruan mingguan saya, dan ikuti saya di Twitter/X di @DavidGewirtz, di Facebook di Facebook.com/DavidGewirtz, di Instagram di <a rel="nofollow" href="https://www.instagram.com/DavidGewirtz

Apa itu pull request?

Tinjauan kode di Anthropic

Contoh masalah yang terungkap selama pengujian

Cara kerja sistem tinjauan multi-agen

Model biaya dan kontrol administratif

Pemeriksaan otomatis

Bagaimana dengan Anda?