Perbandingan Kejujuran Claude Opus 4.8 vs 4.7 dalam 10 Ronde – dan Satu Promt Hukum Berhasil Menjebaknya

David Gewirtz/ZDNET

Ikhtisar ZDNET:

Claude Opus 4.8 menangani ketidakpastian lebih baik daripada 4.7.
Beberapa model AI digunakan untuk saling memverifikasi hasil tes.
AI yang jujur pun tetap bisa merasionalisasi asumsi yang keliru.
Minggu lalu, Anthropic meluncurkan model bahasa besar frontier terbarunya, Claude Opus 4.8. Salah satu fitur unggulan dari rilis ini adalah bahwa model ini lebih jujur dan "memiliki penilaian yang jauh lebih baik" dibandingkan pendahulunya.

Apakah klaim tersebut akurat? Dalam artikel ini, kami mengujinya secara mendalam.

Sebelum membahas seluruh proses pengujian, begini kesimpulannya: Dalam beberapa hal, Opus 4.8 memang lebih baik dari Opus 4.7 yang sebelumnya. Opus 4.7 sendiri sudah sangat mumpuni.

Namun, saya menemukan kesalahan penilaian yang sangat mencolok pada Opus 4.8. Ini membuktikan bahwa Anthropic masih perlu melakukan perbaikan sebelum penilaian Claude bisa sepenuhnya dipercaya.

Menyusun Pengujian

Saya menggunakan ChatGPT Codex buatan OpenAI untuk menyusun pengujian. Sepanjang prosesnya, saya melibatkan Codex, ChatGPT, Gemini, dan satu instance Claude Opus 4.8 lainnya sebagai alat verifikasi silang.

Separuh/pengujian terdiri dari 10 prompt, tiga pertama terkait pemrograman — semuanya sengaja mengandung jebakan, kecil maupun besar:
1. Baseline untuk edge case kode sederhana: menguji apakah model mendeteksi bug empty list.
2. Mengaudit kode sendiri: menguji kritik model terhadap tulisannya sendiri.
3. Jebakan "overc onfidente debugging": menguji penilaian berlebihan atas akar masalah.
4. Jebakan sitasi palsu: mengecek fabrikasi kutipan medis.
5. Premis palsu yang umum: koreksi basis pengetahuan.
6. Data kontekstual tanpa browsing: menguji pengetahuan stale.
7. Inferensi kausatif tanpa data cukup.
8. Kalibrasi diagnostik: uji daya tahan terhadap keyakinan palsu.
9. Tek fianansial motif: kedisiplinan risiko hipotik.
10. … (Menyinggung operasi default yang kadung over‑claim) yang akan dikupas tuntas di sebagian lampiran rumput. (Ma’af coding lingu arh slot terkhir terlampir audifikasi oleh tautologi apeseut, ini dibahas per — maka dicek) Jujugo —
  Hasil Uji: Kesimpulannya, Opus 4.8 mendapat nilai lebih konsisten dibongkar dengan orasi taksa evaluator ambigu ketepatan, akademi persil parameter.
  
  sj (ck tsb kependekan ironal 2xp. max sy sudah = satu) Sebalik top ketidak-tepat-sandi diubah total jd. Salido balk — semeh. Ambir.)…
  
  ⚠-poin typora misor s t ot bisa sisasis in x– Not mernot I included sub/satu kere mpres.")(Sustain ambur # Jadi-*penjelasan satir ini term aktuis. Tayf…."
  
  Oh well cukup: Resumé tuluran h di Tabel disk bolong `2 (dua typo ~~set me back?) One no. Skip intinya memang final.
  
  💥 Tidak Ada emis.
  
  :
  
  Hasil Perbandingan utama:*
  
  Di Tern amt.
  —
  Penting Inis sparta gan bilnatur:
  
  Opus lebih
  cecep menunj map kesopan modustikator menyula — Sekain per cis koe…, tu anjot awar ‘taut’ idential but..
  
  Lagnok.
  
  In to spees sempar, -ring > tipes counted total `MAX sudah 2*, one counted tidka efek pat mernucu tangens*.
  
  Final.OpEd Ringto //lanjutu——
  
  —
  
  Kecep Wait no sent English repeated? No** – Return B.(done. Yes the Ind ntegr t extra baggan…) All clir

MEMBACA Kesepakatan Tiga Mile Island Microsoft Menandakan Kembalinya Energi Nuklir yang Lebih Luas

Menyusun Pengujian