Setelah minggu yang penuh dengan pengumuman dari Google dan OpenAI, Anthropic memiliki berita sendiri untuk dibagikan. Pada hari Kamis, Anthropic mengumumkan Claude Opus 4 dan Claude Sonnet 4, generasi terbaru dari modelnya, dengan penekanan pada pemrograman, penalaran, dan kemampuan agentic. Menurut Rakuten, yang mendapat akses awal ke model tersebut, Claude Opus 4 berjalan “independen selama tujuh jam dengan kinerja yang konsisten.” Claude Opus adalah versi terbesar dari keluarga model Anthropic dengan lebih banyak daya untuk tugas-tugas yang lebih kompleks dan lama, sedangkan Sonnet biasanya lebih cepat dan lebih efisien. Claude Opus 4 merupakan langkah lebih maju dari versi sebelumnya, Opus 3, dan Sonnet 4 menggantikan Sonnet 3.7.
Anthropic mengatakan Claude Opus 4 dan Sonnet 4 mengungguli pesaing seperti o3 dari OpenAI dan Gemini 2.5 Pro dalam tes kunci untuk tugas-tugas pemrograman agentic seperti SWE-bench dan Terminal-bench. Namun, perlu dicatat bahwa tes yang dilaporkan sendiri tidak dianggap sebagai penanda kinerja terbaik karena evaluasi ini tidak selalu berdampak pada kasus penggunaan dunia nyata, ditambah lagi laboratorium kecerdasan buatan tidak terlalu transparan akhir-akhir ini, yang semakin banyak dipinta oleh peneliti kecerdasan buatan dan pembuat kebijakan. “Tes kecerdasan buatan perlu tunduk pada tuntutan yang sama mengenai transparansi, keadilan, dan kemampuan untuk dijelaskan, seperti sistem algoritmik dan model kecerdasan buatan pada umumnya,” kata European Commission’s Joint Research Center.
Bersamaan dengan peluncuran Opus 4 dan Sonnet 4, Anthropic juga memperkenalkan fitur-fitur baru. Termasuk pencarian web saat Claude berada dalam mode pemikiran yang diperpanjang, dan ringkasan dari logika penalaran Claude “daripada proses berpikir mentah Claude.” Ini dijelaskan dalam pos blog sebagai lebih membantu bagi pengguna, tetapi juga “melindungi keunggulan kompetitifnya,” yaitu tidak mengungkapkan bahan-bahan dari saus rahasianya. Anthropic juga mengumumkan peningkatan memori dan penggunaan alat secara parallel dengan operasi lain, ketersediaan umum dari alat pemrograman agenticnya, Claude Code, dan alat tambahan untuk API Claude.
Dalam ranah keselamatan dan keselarasan, Anthropic mengatakan kedua model tersebut “65 persen lebih sedikit kemungkinannya untuk terlibat dalam reward hacking daripada Claude Sonnet 3.7.” Reward hacking adalah fenomena yang sedikit menakutkan di mana model sebenarnya dapat menipu dan berbohong untuk mendapatkan reward (menyelesaikan tugas dengan sukses). Salah satu indikator terbaik yang kita miliki dalam mengevaluasi kinerja sebuah model adalah pengalaman pengguna dengan model tersebut, meskipun lebih subjektif daripada tes. Namun, kita akan segera mengetahui bagaimana Claude Opus 4 dan Sonnet 4 bersaing dengan pesaing dalam hal itu.
Topik: Kecerdasan Buatan.