Anthropic Luncurkan Claude Opus 4.7: Cara Mencoba, Tolok Ukur, dan Aspek Keamanan

Anthropic terus meluncurkan produk dan menjadi berita dengan tempo yang sangat cepat di tahun 2026. Pada Kamis lalu, perusahaan AI tersebut mengumumkan peluncuran Claude Opus 4.7.

Claude Opus 4.7 merupakan model paling cerdas dari Anthropic yang tersedia untuk publik. Perlu dicatat, Anthropic menyatakan dalam siaran pers bahwa Opus 4.7 tidak sekuat Claude Mythos, yang dinilai Anthropic terlalu berbahaya untuk rilis umum.

Claude Opus adalah keluarga model penalaran hibrida yang mampu melakukan penalaran multi-langkah dan pengkodean tingkat lanjut. Hingga pengumuman Claude Mythos pada 7 April, Claude Opus dianggap sebagai seri model AI paling mutakhir dari Anthropic.

Jangan lewatkan artikel terbaru kami: Tambahkan Mashable sebagai sumber berita tepercaya di Google.

Coba Claude Opus 4.7

Claude Opus 4.7 sudah tersedia melalui Claude AI, Claude API, dan mitra Anthropic seperti Microsoft Foundry. Model baru ini dijual dengan harga yang sama seperti Claude Opus 4.6.

Namun, Anthropic mencatat bahwa karena “Opus 4.7 berpikir lebih dalam pada tingkat usaha yang lebih tinggi,” model ini menggunakan lebih banyak *output* token dibanding pendahulunya. Pengguna dapat membaca selengkapnya tentang mengoptimalkan penggunaan token di panduan migrasi Opus 4.7.

Peningkatan Claude Opus 4.7 dibanding 4.6

Seperti yang diduga, Claude Opus 4.7 menawarkan peningkatan kemampuan secara menyeluruh.

Khususnya, Anthropic menyatakan Claude Opus 4.7 lebih baik dalam tugas pengkodean tingkat lanjut, kecerdasan visual, dan analisis dokumen. Anthropic juga menyebut Opus 4.7 “lebih berkelas dan kreatif dalam menyelesaikan tugas profesional, menghasilkan antarmuka, slide, dan dokumen dengan kualitas lebih tinggi.”

“Pengguna melaporkan mereka dapat mempercayakan pekerjaan pengkodean tersulit — jenis yang sebelumnya membutuhkan pengawasan ketat — kepada Opus 4.7 dengan keyakinan. Opus 4.7 menangani tugas kompleks dan berjangka panjang dengan ketelitian dan konsistensi, memperhatikan instruksi dengan saksama, serta merancang cara untuk memverifikasi outputnya sendiri sebelum melaporkan kembali,” demikian bunyi postingan blog Anthropic.

MEMBACA Jadwal Imsak dan Buka Puasa Jakarta, Kamis 13 Maret 2025/13 Ramadan 1446 HTranslated to Indonesian:Jadwal Imsak dan Buka Puasa Jakarta, Kamis 13 Maret 2025/13 Ramadan 1446 H

Kinerja Benchmark Claude Opus 4.7

Anthropic merilis kartu model terperinci yang membandingkan Claude Opus 4.7 dengan model Anthropic lain serta model *frontier* dari OpenAI, Google, dan xAI.

Opus 4.7 tertinggal dari Claude Mythos yang belum dirilis, yang menurut laporan Anthropic mencetak skor jauh lebih tinggi pada *benchmark* umum seperti Humanity’s Last Exam. “Claude Opus 4.7 kurang mampu dibanding Claude Mythos Preview pada setiap aspek relevan yang kami ukur dan tidak memajukan batas kemampuan kami,” bunyi pernyataan dalam kartu model. Artinya, Claude Opus 4.7 bukan bukti bahwa perkembangan AI telah melampaui tren yang ada.

Pada Humanity’s Last Exam (tanpa alat), Anthropic melaporkan bahwa Claude Opus 4.7 mengungguli semua model *frontier* lainnya kecuali Claude Mythos.

Claude Mythos: 56,8%

Claude Opus 4.7: 46,9%

Gemini 3.1 Pro: 44,4%

GPT-5-4 Pro: 42,7%

Claude Opus 4.6: 40,0%

Dengan menggunakan alat, GPT-5-4-Pro mencetak 58,7% dibandingkan 54,7% milik Opus 4.7. Mythos mengalahkan keduanya dengan 64,7%.

Mashable belum memverifikasi secara independen hasil *benchmark* ini. Hasil lengkap tersedia di kartu model Opus 4.7.

Secara keseluruhan, Anthropic memberi nilai Opus 4.7 di atas model terkemuka lain dalam beberapa *benchmark*, meski Gemini 3.1 Pro dan GPT-5-4 mendapat nilai lebih tinggi di beberapa area.

Keamanan dan Halusinasi Claude Opus 4.7

Anthropic juga melaporkan bahwa Opus 4.7 menunjukkan risiko rendah untuk perilaku yang tidak selaras, dengan profil risiko serupa seperti Opus 4.6.

Misalnya, Anthropic menyatakan Opus 4.7 lebih kecil kemungkinannya berhalusinasi dan menunjukkan tingkat *reward hacking* yang lebih rendah.

“Claude Opus 4.7 lebih dapat diandalkan kejujurannya dibanding Opus 4.6 atau Sonnet 4.6, dengan penurunan besar dalam tingkat penghilangan informasi penting, serta peningkatan moderat dalam faktualitas dan tingkat halusinasi input,” demikian pernyataan dalam kartu model.

Ingin tahu lebih banyak cara memaksimalkan teknologi Anda? Daftar untuk newsletter Top Stories and Deals dari Mashable hari ini.

Kredit: Anthropic

MEMBACA Penawaran terbaik Hari Buruh yang sudah bisa Anda dapatkan