Claude Sonnet 4.6: Performa dalam Tolok Ukur dan Cara Mencobanya

Anthropic baru saja meluncurkan model Large Language Model (LLM) terbarunya, Claude Sonnet 4.6. Rilis pada hari Selasa ini dengan cepat menyusul peluncuran Claude Opus 4.6, model AI premium perusahaan, pada 5 Februari lalu.

Menurut Anthropic, “Claude Sonnet 4.6 adalah model Sonnet paling mumpuni yang kami miliki sejauh ini.” Perusahaan menyatakan Sonnet 4.6 memiliki context window 1 juta token dalam versi beta. Yang krusial, Anthropic melaporkan bahwa Sonnet 4.6 berkinerja baik dalam uji keamanan internal, menunjukkan kecenderungan rendah untuk berhalusinasi dan melakukan sikofansi.

“Sonnet 4.6 membawa kemampuan pemrograman yang jauh lebih baik kepada lebih banyak pengguna kami,” ujar Anthropic, merujuk pada popularitas Claude di kalangan pengembang yang menggunakan AI untuk menulis kode.

Jika Anda ingin menggunakan model AI terbaru Anthropic, perusahaan telah memudahkan caranya. Berikut adalah cara mengakses Claude Sonnet 4.6.

Cara menggunakan Claude Sonnet 4.6

Baik untuk pengguna gratis maupun Pro, Claude Sonnet 4.6 tersedia sekarang sebagai model bawaan di claude.ai dan Claude Cowork. Anthropic juga telah merilis model ini melalui API-nya dan semua platform cloud utama.

Pengguna gratis akan memiliki batas penggunaan yang tergantung pada permintaan saat ini. Batas ini direset setiap lima jam. Bagi mereka yang membutuhkan limit lebih tinggi, Claude Sonnet 4.6 dibanderol dengan harga yang sama seperti model sebelumnya. Paket Claude Pro berharga $20 per bulan atau $17 per bulan jika dibayar tahunan. Jika melalui API, Claude Sonnet 4.6 dimulai dari $3 per juta token input dan $15 per juta token output.

Kinerja Benchmark Claude Sonnet 4.6

Berdasarkan uji benchmark Anthropic, Claude Sonnet 4.6 adalah model paling kuat perusahaan untuk analisis keuangan agen dan tugas-tugas kantor, mengalahkan pesaing seperti Google Gemini 3 Pro dan OpenAI GPT 5.2.

MEMBACA  Biden menghadapi Gaza, titik lemah pemilihan 2024 dalam pidato di Morehouse

Pada tugas-tugas tersebut, Claude Sonnet 4.6 juga mengungguli model Opus 4.6 milik Anthropic sendiri, yang merupakan model AI paling kuat mereka.

Dalam pengumuman perilisan, Anthropic menyatakan bahwa banyak pengembang dengan akses awal ke Claude Sonnet 4.6 lebih memilih model ini — tidak hanya dibandingkan pendahulunya, Claude Sonnet 4.5, tetapi juga Claude Opus 4.5. Menurut kartu sistem Sonnet 4.6, model baru ini menunjukkan peningkatan pada benchmark kunci seperti Humanity’s Last Exam, meskipun Claude Opus 4.6 mencetak skor lebih tinggi.

Kinerja Benchmark:

  • GPQA Diamond: 89.9 persen
  • ARC-AGI-2: 58.3 persen
  • MMMLU: 89.3 persen
  • SWE-bench Verified: 79.6 persen
  • HLE (Humanity’s Last Exam): Dengan alat 49.0 persen, tanpa alat 33.2 persen

Perusahaan asuransi berbasis AI, Pace, menyampaikan kepada VentureBeat bahwa Sonnet 4.6 mencetak skor terbaik dari semua model Claude dalam benchmark penggunaan komputer asuransi kompleks mereka.

Hasil ini cukup mencolok mengingat model Claude Opus umumnya lebih cerdas dan disukai untuk penalaran kompleks.

Claude Sonnet 4.6 tidak hanya lebih kuat dari beberapa model Opus, tetapi juga lebih terjangkau. Seperti disebutkan sebelumnya, Claude Sonnet 4.6 dihargai $3/$15, sedangkan tarif Opus 4.6 adalah $5/$25.

Topik: Kecerdasan Buatan

Tinggalkan komentar