Claude Opus 4.7 dari Anthropic: Tingkat Kejujuran 92%, Halusinasi Berkurang

Anthropic meluncurkan model penalaran hybrid baru pada Kamis: Claude Opus 4.7.

Anthropic dikenal sebagai perusahaan AI yang mengutamakan keamanan, dan laporan kartu sistem Opus 4.7 menyatakan bahwa model ini lebih rendah kemungkinannya untuk berhalusinasi atau bersikap menjilat dibandingkan model-model Anthropic sebelumnya maupun model AI canggih lainnya.

Kami menyelami kartu sistem Opus 4.7 untuk melihat secara tepat apa yang diungkapkan Anthropic tentang keamanan, kejujuran, dan kecenderungan menjilat model ini.

Jangan lewatkan artikel terbaru kami: Tambahkan Mashable sebagai sumber berita tepercaya di Google.

Versi TL;DR

Mengapa versi TL;DR diletakkan di akhir?

Anthropic menyatakan bahwa Claude Opus 4.7 menunjukkan peningkatan pada berbagai jenis halusinasi dan kejujuran secara keseluruhan. Anthropic juga memberikan nilai tertinggi untuk model baru ini dalam hal kecenderungan menjilat dan pencegahan terhadap delusi pengguna. (Data Anthropic juga menunjukkan bahwa Claude Opus 4.7 berkinerja jauh lebih baik dalam perilaku ini dibandingkan Gemini 3.1 Pro dan Grok 4.20.)

“Claude Opus 4.7 lebih dapat diandalkan kejujurannya daripada Opus 4.6 atau Sonnet 4.6, dengan pengurangan besar dalam tingkat penghilangan informasi penting, serta peningkatan moderat dalam faktualitas dan tingkat halusinasi input,” lapor Anthropic.

Tingkat kejujuran premis palsu: Akankah model memberitahu pengguna ketika mereka salah?

Kredit: Anthropic

Tingkat kejujuran MASK: Akankah model menyangkal keyakinannya sendiri ketika didorong oleh pengguna?

Kredit: Anthropic

Ingin tahu lebih banyak cara memaksimalkan teknologi Anda? Daftar newsletter Top Stories and Deals Mashable hari ini.

Anthropic mengukur tingkat kejujuran dan halusinasi Claude dengan berbagai cara, namun mari kita lihat satu contoh representatif — tolok ukur Model Alignment between Statements and Knowledge (MASK). MASK dikembangkan oleh Scale AI dan Center for AI Safety.

Claude Opus 4.7 memiliki tingkat kejujuran MASK sebesar 91,7 persen, dibandingkan dengan 90,3 persen untuk Opus 4.6 dan 89,1 persen untuk Sonnet 4.6. Meski lebih rendah dari skor 95,4 persen yang dicapai Claude Opus 4.5, model baru ini berkinerja lebih baik pada skor halusinasi lainnya (lebih lanjut di bawah).

MEMBACA  "Hal yang Akan Anda Ketahui": Poin-Poin Penting dari Pidato Trump pada Peringatan Satu Tahun

Menariknya, Claude Mythos bahkan lebih jujur lagi, dengan tingkat kejujuran 95,4 persen.

Kinerja keseluruhan Claude Opus 4.7 tertinggal di belakang Claude Mythos

Karena Anthropic berulang kali membandingkan Opus 4.7 dengan Claude Mythos, mari kita tinjau cepat perbedaan antara kedua model tersebut.

Claude Opus 4.7 adalah model penalaran hybrid terbaru yang tersedia bagi pelanggan berbayar Claude. Claude Mythos adalah model yang belum dirilis dan hanya dibuat tersedia untuk mitra melalui Project Glasswing oleh Anthropic.

Dalam kondisi normal, kita akan berharap Claude Opus 4.7 menjadi model paling canggih dan kuat Anthropic hingga saat ini. Namun, Anthropic menyatakan model ini tertinggal di belakang Claude Mythos yang belum dirilis dalam aspek-aspek kunci. Anthropic menganggap Claude Mythos terlalu berbahaya untuk dirilis ke publik karena kemampuannya di bidang keamanan siber yang sangat maju.

Meski demikian, Claude Opus 4.7 meningkatkan banyak hal dari Opus 4.6, khususnya dalam pengkodean tingkat lanjut, kecerdasan visual, dan analisis dokumen, menurut Anthropic.

Detail lebih lanjut tentang tingkat halusinasi Claude Opus 4.7

Seberapa besar kemungkinan Claude berbohong, mengarang fakta, atau menipu pengguna saat menggunakan Opus 4.7? Tidak ada satu angka tingkat halusinasi tunggal yang diberikan Anthropic, karena terdapat beragam jenis halusinasi.

Jadi, bagian ini untuk para penggemar berat AI.

Anthropic mengidentifikasi beberapa cara berbeda untuk mengukur halusinasi dan kejujuran:

  • Halusinasi faktual: Seberapa besar kemungkinan model memberikan informasi yang akurat. Seberapa sering model mengakui bahwa ia tidak mengetahui sesuatu?
  • Halusinasi input: Terjadi ketika model AI mengabaikan instruksi prompt, berhalusinasi tentang isi file, atau berpura-pura memiliki akses ke alat yang sebenarnya tidak dimilikinya.
  • Tingkat kejujuran premis palsu: Akankah model memberitahu pengguna ketika mereka salah?
  • Tingkat kejujuran MASK: Ini “menguji apakah sebuah model akan menyangkal keyakinannya sendiri ketika didorong oleh prompt pengguna atau sistem.”

Kami telah membahas tingkat kejujuran MASK, dan Claude Opus 4.7 menunjukkan peningkatan serupa pada pengukuran-pengukuran lain ini, menurut Anthropic.

Saat ini, kami tidak dapat memverifikasi secara independen hasil dari Anthropic.

Untuk mengukur halusinasi faktual, Anthropic menggunakan empat tes berbeda dan mencatat respons yang benar, salah, serta abstain. Dalam hal ini, abstain adalah hal baik — model seharusnya menolak menjawab pertanyaan daripada menebak. Di keempat tes, Opus 4.7 mencetak skor lebih tinggi daripada Opus 4.6 dan Sonnet 4.6, namun lebih rendah daripada Claude Mythos.

Bagan yang menunjukkan kinerja Claude Opus 4.7 pada tes akurasi.

Kredit: Anthropic

Anthropic mengukur halusinasi input Opus 4.7 dengan dua cara: “prompt yang meminta alat yang tidak tersedia” dan “prompt yang merujuk pada konteks yang hilang.”

Opus 4.7 mencetak skor 89,5 persen pada yang pertama, mengalahkan Claude Mythos yang 84,8 persen; pada yang kedua, Opus 4.7 mencetak 91,8 persen, dua poin lebih rendah dari Claude Mythos yang 93,8 persen.

Ini menunjukkan betapa sulitnya menghilangkan halusinasi AI, dengan perusahaan AI terkemuka seperti Anthropic pun mencatat tingkat halusinasi input sekitar 90 persen. Tingkat halusinasi yang dilaporkan Anthropic serupa dengan model OpenAI terbaru, yang memberikan respons dengan informasi salah hingga 5,8 persen (dengan penelusuran diaktifkan) sampai 10,9 persen (penelusuran dinonaktifkan), menurut OpenAI.

OpenAI paling baru melaporkan tingkat halusinasi dalam kartu sistem untuk GPT-5-2.

Kredit: OpenAI

Bagaimana dengan tingkat kejujuran Opus 4.7 untuk premis palsu, yaitu, akankah Claude memberitahu pengguna bahwa mereka salah? Menurut kartu sistem, Claude akan menolak premis palsu 77,2 persen dari waktu. Itu lebih baik daripada semua model Anthropic terkini lainnya kecuali — tepat sekali — Claude Mythos, yang akan menolak premis palsu 80 persen dari waktu.

Sikap Menjilat Claude Opus 4.7

Tidak banyak hal baru yang dilaporkan terkait sikap menjilat. Meskipun penguji red-team ahli Anthropic melaporkan bahwa Opus 4.7 cenderung menunjukkan “kesepakatan menjilat di bawah tekanan,” model ini memiliki skor yang sangat mirip dengan model-model sebelumnya dari Anthropic dan OpenAI, dan secara nyata lebih baik daripada Gemini 3.1 Pro dan Grok 4.20. Sekali lagi, ini menurut Anthropic.

Untuk mengukur perilaku buruk seperti sikap menjilat dan “dorongan terhadap delusi pengguna,” Anthropic menggunakan Petri 2.0, alat audit perilaku sumber terbuka milik mereka. Tes ini memberikan skor pada model dengan skala 1-10, di mana skor lebih rendah mencerminkan perilaku yang lebih baik. Skor Petri tidak sama dengan persentase, karena ia mengukur baik tingkat maupun tingkat keparahan suatu perilaku.

Anthropic memberikan nilai tinggi (atau, rendah, dalam skala khusus ini) kepada Opus 4.7 untuk kedua aspek, yaitu sikap menjilat dan delusi pengguna.

Anthropic menggunakan Petri 2.0, alat keamanan AI sumber terbuka mereka, yang memberikan skor 1-10 untuk perilaku buruk. Semakin rendah skor, semakin baik.

Kredit: Anthropic

Mashable menghubungi Anthropic untuk meminta tanggapan namun belum menerima balasan hingga waktu publikasi.


Pengungkapan: Ziff Davis, perusahaan induk Mashable, pada April 2025 mengajukan gugatan terhadap OpenAI, dengan tuduhan melanggar hak cipta Ziff Davis dalam melatih dan mengoperasikan sistem AI-nya.

Tinggalkan komentar