Anthropic Luncurkan Claude Sonnet 4.5, Model yang Klaim Bisa Bangun Perangkat Lunak dan Selesaikan Tugas Bisnis Secara Otomatis

Anthropic telah meluncurkan model AI terbarunya, Claude Sonnet 4.5. Mereka klaim model ini punya kemajuan besar dalam kerja otonom dan coding.

Perusahaan bilang model ini bisa jalan sendiri selama 30 jam untuk bikin satu aplikasi perangkat lunak utuh, dengan pengawasan minimal. Ini peningkatan yang signifikan dari model Opus 4 mereka sebelumnya yang cuma bisa jalan 4 bulan lalu selama tujuh jam.

Claude Sonnet 4.5 juga dikatakan lebih baik dari Opus dalam tes standar dan lebih efektif memenuhi kebutuhan bisnis praktis pelanggan. Kemampuan coding-nya bahkan lebih bagus dari model-model canggih sebelumnya. Model baru ini lebih pintar dalam mengikuti instruksi, mengidentifikasi perbaikan kode, dan menghasilkan kode yang lebih siap pakai. Saat diuji untuk tugas-tugas di industri jasa keuangan, model ini lebih unggul dalam penelitian, membangun model keuangan, dan peramalan.

Anthropic terlihat semakin unggul di atas pesaingnya dalam bantuan coding dan penyelesaian tugas otonom, mengarahkan modelnya untuk penggunaan di perusahaan dan tempat kerja. Model Claude Opus 4.1 mereka sebelumnya sudah mengalahkan pesaing di tolok ukur baru OpenAI, GDPval, yang menguji kinerja model dibandingkan profesional manusia di berbagai industri dan pekerjaan.

Minggu lalu, OpenAI mengatakan model GPT-5 mereka dan Claude Opus 4.1 Anthropic "sudah mendekati kualitas kerja yang dihasilkan oleh ahli industri."

Studi penggunaan yang dirilis awal bulan ini juga menyarankan bahwa model Claude Anthropic muncul sebagai model AI yang lebih berorientasi profesional, terutama dibandingkan dengan ChatGPT OpenAI, yang semakin banyak dipakai sebagai produk konsumen.

Menurut studi itu, sebagian besar pengguna Claude memakainya untuk tugas tempat kerja atau produktivitas. Tugas matematika dan coding disebut sebagai kegiatan utama secara global untuk Claude.ai, mencakup 36% dari semua kasus penggunaan.

MEMBACA  Perbedaan dan Mana yang Lebih Penting

Penggunaan bisnis untuk Claude sangat condong ke otomatisasi tugas. Sekitar 77% perintah yang diterima model melalui API-nya—yang terutama digunakan oleh pelanggan perusahaan—melibatkan permintaan pengguna agar sistem melakukan tugas untuk mereka, bukan hanya memberi saran. Interaksi yang fokus bisnis ini juga terkonsentrasi pada coding, yang mencakup 44% penggunaan API. Tambahan 5% penggunaan API didedikasikan untuk mengembangkan atau mengevaluasi sistem AI.

Tugas yang diotomatisasi pengguna bisnis juga cenderung yang paling mahal untuk dijalankan. Temuan ini menunjukkan perubahan dalam cara bisnis mendekati alat-alat ini. Daripada memakainya terutama untuk dukungan keputusan atau penelitian, banyak tim mengandalkannya untuk mengambil alih pekerjaan sepenuhnya.

Jika model seperti Claude bisa menjadi lebih mampu bekerja otonom, terutama di bidang yang kompleks dan memakan waktu seperti rekayasa perangkat lunak, dampaknya bagi bisnis dan karyawan bisa signifikan. Agen otonom dapat mengurangi kebutuhan akan pengawasan manusia yang konstan dan menurunkan biaya untuk alur kerja yang berulang, mempercepat operasi perusahaan dan berpotensi mengurangi kebutuhan akan jumlah karyawan.