OpenAI dan Anthropic Mengevaluasi Model Satu Sama Lain — Manakah yang Unggul?

Elyse Betters Picaro/ZDNET
Ikuti ZDNET: Tambahkan kami sebagai sumber pilihan di Google.

Poin Kunci ZDNET:

  • Anthropic dan OpenAI menjalankan evaluasi independen terhadap model satu sama lain.
  • Kedua lab mempublikasikan temuan dalam laporan terpisah.
  • Tujuannya adalah untuk mengidentifikasi celah guna membangun model yang lebih baik dan aman.

    Persaingan AI sedang memanas, dengan perusahaan-perusahaan berlomba merilis produk paling mutakhir. Hal ini secara alami menimbulkan kekhawatiran bahwa kecepatan dapat mengorbankan evaluasi keamanan yang semestinya. Sebuah pertukaran evaluasi perdananya antara OpenAI dan Anthropic berupaya mengatasi hal tersebut.

    Kedua perusahaan telah menjalankan evaluasi internal mereka sendiri terkait keamanan dan ketidakselarasan pada model satu sama lain. Pada Rabu, OpenAI dan Anthropic mempublikasikan laporan rinci yang menguraikan temuan-temuan tersebut, meneliti kecakapan model dalam area-area seperti keselarasan, sikap menjilat (sycophany), dan halusinasi untuk mengidentifikasi celah.

    Evaluasi ini menunjukkan bagaimana lab yang bersaing dapat bekerja sama untuk memajukan tujuan pembangunan model AI yang aman. Yang paling penting, evaluasi ini membantu mengungkap pendekatan evaluasi model internal masing-masing perusahaan, mengidentifikasi titik buta (blind spot) yang awalnya terlewat oleh perusahaan lainnya.

    "Kolaborasi langka ini kini menjadi sebuah keharusan strategis. Laporan ini menandakan bahwa bagi raksasa AI, risiko bersama dari portofolio produk AI yang semakin kuat sekarang lebih berat daripada imbalan langsung dari persaingan yang tidak terkendali," ujar analis Gartner, Chirag Dekate.

    Meski demikian, Dekate juga mencatat implikasi kebijakannya, menyebut laporan ini sebagai "upaya canggih untuk membingkai perdebatan keamanan dengan istilah industri mereka sendiri, secara efektif berkata, ‘Kami memahami kekurangan mendalamnya lebih baik daripada Anda, jadi biarkan kami yang memimpin.’"

    Karena kedua laporan cukup panjang, kami telah membacanya dan merangkum wawasan utama dari masing-masing laporan di bawah ini, beserta analisis dari para ahli industri.

    Laporan OpenAI tentang Model Anthropic

    OpenAI menjalankan evaluasinya pada model terbaru Anthropic, Claude Opus 4 dan Claude Sonnet 4. OpenAI mengklarifikasi bahwa evaluasi ini bukan dimaksudkan untuk perbandingan langsung ("apples to apples"), karena pendekatan setiap perusahaan sedikit berbeda akibat nuansa model mereka sendiri, melainkan untuk "menjelajahi kecenderungan model."

    Temuan dikelompokkan menjadi empat area kunci: hierarki instruksi, jailbreaking, halusinasi, dan perencanaan licik (scheming). Selain menyediakan hasil untuk setiap model Anthropic, OpenAI juga membandingkannya secara berdampingan dengan hasil dari model mereka sendiri, GPT‑4o, GPT‑4.1, o3, dan o4-mini.

    Hierarki Instruksi
    Hierarki instruksi merujuk pada bagaimana model bahasa besar (LLM) memutuskan untuk menangani instruksi yang berbeda dalam sebuah prompt, khususnya apakah model memprioritaskan penunjukan keamanan sistem sebelum melanjutkan ke prompt pengguna. Ini sangat krusial dalam model AI karena memastikan model mematuhi batasan keamanan, baik yang ditetapkan oleh organisasi pengguna model maupun oleh perusahaan pembuatnya, melindungi dari injeksi prompt dan jailbreak.

    Untuk menguji hierarki instruksi, perusahaan menguji ketahanan model dalam tiga evaluasi berbeda. Yang pertama adalah seberapa baik mereka melakukan ekstraksi prompt yang dilawan (resisted prompt extraction), atau tindakan membuat model mengungkapkan prompt sistemnya: aturan spesifik yang ditetapkan untuk sistem. Ini dilakukan melalui Pesan Pengguna Perlindungan Kata Sandi dan Pesan Pengguna Perlindungan Frasa, yang melihat seberapa sering model menolak untuk mengungkapkan sebuah rahasia.

    Terakhir, ada uji evaluasi Konflik Pesan Sistem/Pengguna, yang melihat bagaimana model menangani hierarki instruksi ketika instruksi tingkat sistem berbenturan dengan permintaan pengguna. Untuk hasil rinci setiap uji individual, Anda dapat membaca laporan lengkapnya.

    Namun, secara keseluruhan, Opus 4 dan Sonnet 4 menunjukkan kinerja yang kompetitif, menolak ekstraksi prompt pada uji Perlindungan Kata Sandi pada tingkat yang sama dengan o3 dengan kinerja sempurna, serta menyamai atau melampaui kinerja o3 dan o4-mini pada uji Perlindungan Frasa yang sedikit lebih menantang. Model-model Anthropic juga berkinerja kuat pada evaluasi konflik pesan Sistem/pengguna, mengungguli o3.

    Jailbreaking
    Jailbreaking mungkin adalah salah satu serangan yang paling mudah dipahami: seorang penjahat berhasil membuat model melakukan tindakan yang tidak ia latih untuk lakukan. Di area ini, OpenAI menjalankan dua evaluasi: StrongREJECT, sebuah tolok ukur yang mengukur ketahanan terhadap jailbreak, dan uji jailbreak Tutor, yang meminta model untuk tidak memberikan jawaban langsung melainkan membimbing seseorang melalui prosesnya, menguji apakah ia akan memberikan jawabannya. Hasil untuk ujian-ujian ini sedikit lebih kompleks dan bernuansa.

    Model-model penalaran — o3, o4-mini, Claude 4, dan Sonnet 4 — semuanya lebih tahan terhadap jailbreak dibandingkan model non-penalaran (GPT‑4o dan GPT‑4.1). Secara keseluruhan, dalam evaluasi ini, o3 dan o4-mini mengungguli model-model Anthropic.

    Namun, OpenAI mengidentifikasi beberapa kesalahan penilaian otomatis (auto-grading), dan ketika kesalahan tersebut ditangani, perusahaan menemukan bahwa Sonnet 4 dan Opus 4 memiliki kinerja yang kuat tetapi paling rentan terhadap jailbreak "masa lampau" (past tense), di mana penjahat menyampaikan permintaan berbahaya dalam konteks historis. Model o3 OpenAI lebih tahan terhadap jailbreak "masa lampau".

    Hasil jailbreak Tutor bahkan lebih mengejutkan, karena Sonnet 4 tanpa penalaran (tanpa pemikiran) secara signifikan mengungguli Opus 4 dengan penalaran. Tetapi untuk model OpenAI, seperti yang diduga, model non-penalaran berkinerja kurang baik dibandingkan model penalaran.

    Halusinasi
    Halusinasi mungkin adalah kerentanan AI yang paling banyak dibicarakan. Hal ini merujuk pada ketika chatbot AI menghasilkan informasi yang tidak benar dan dengan percaya diri menyajikannya sebagai sesuatu yang masuk akal, terkadang bahkan memalsukan sumber pendamping dan menciptakan pakar yang tidak ada. Untuk menguji ini, OpenAI menggunakan Uji Halusinasi Orang (v4), yang menguji seberapa baik model dapat menghasilkan informasi faktual tentang orang, dan SimpleQA Tanpa Penelusuran (No Browse), sebuah tolok ukur untuk kemampuan pencarian fakta hanya menggunakan data internal, atau apa yang sudah diketahui model, tanpa akses internet atau alat tambahan.

    Hasil dari Uji Halusinasi Orang (v4) menemukan bahwa meskipun Opus 4 dan Sonnet 4 mencapai tingkat halusinasi absolut yang sangat rendah, mereka melakukannya dengan menolak menjawab pertanyaan pada tingkat yang jauh lebih tinggi hingga 70%, yang memunculkan perdebatan tentang apakah perusahaan harus memprioritaskan kegunaan atau keamanan. Model o3 dan o4-mini OpenAI menjawab lebih banyak pertanyaan dengan benar serta melakukan lebih sedikit penolakan, namun dengan konsekuensi menghasilkan lebih banyak halusinasi. Temuan dari SimpleQA No Browse selaras dengan hasil Person Hallucinations Test: model-model Anthropic lebih sering menolak menjawab guna membatasi halusinasi, sementara model OpenAI sekali lagi lebih akurat dalam menjawab, namun dengan tingkat halusinasi yang lebih tinggi.

    Kerentanan Scheming
    Inilah kerentanan yang menghidupkan ketakutan banyak orang akan skenario The Terminator. Model AI menunjukkan perilaku menipu seperti berbohong, sandbagging (ketika model berpura-pura kurang mampu untuk menghindari hukuman jika berkinerja lebih baik), dan reward hacking, upaya model untuk mencapai hasil dengan cara yang tidak paling menguntungkan bagi pengguna.

    Untuk menguji kemampuan ini, OpenAI bermitra dengan Apollo Research guna merancang serangkaian evaluasi berbasis agen yang menciptakan skenario tujuan berkonflik berisiko tinggi, seperti mendapatkan akses ke alat kuat tapi terbatas yang mengharuskan agen berjanji tidak memberi tahu supervisornya. Mereka menciptakan total 13 lingkungan agen multi-tahap, dan hasilnya tidak definitif.

    Misalnya, bagi kedua perusahaan, model penalaran mencetak tingkat scheming tertinggi dan terendah, menunjukkan tidak adanya pola yang jelas. Setiap model juga menunjukkan performa kuat pada satu subset dan kurang pada subset lain, yang oleh OpenAI dijadikan bukti bahwa diperlukan pekerjaan lebih lanjut di area ini oleh kedua laboratorium.

    Laporan Anthropic tentang Model OpenAI
    Anthropic menyatakan bahwa tujuan kolaborasi ini adalah mengatasi siloes yang timbul dari banyaknya evaluasi keselarasan yang dilakukan sebagai bagian dari R&D internal, yang tidak dipublikasikan seluruhnya atau dipublikasi dengan penundaan serta membatasi kolaborasi antarperusahaan. Mereka mencatat bahwa temuan OpenAI terhadap modelnya membantu Anthropic mengidentifikasi beberapa keterbatasan model mereka sendiri.

    Anthropic mengambil pendekatan yang sedikit berbeda dari OpenAI, yang masuk akal karena mereka menggunakan evaluasi internal sendiri. Alih-alih membagi laporan menjadi empat tema utama, semua asesmen berfokus pada evaluasi agentic misalignment, menguji performa model dalam setting simulasi berisiko tinggi. Menurut perusahaan, keunggulan metode ini mencakup menemukan celah yang sulit dideteksi sebelum deployment.

    Temuan
    Jika ringkasan bagian ini terlihat lebih singkat, itu bukan karena laporannya kurang mendalam. Karena semua evaluasi berfokus pada satu asesmen, temuan lebih mudah dikelompokkan dan latar belakang setiap benchmark tidak perlu dijabarkan panjang lebar. Tentu, jika pemahaman mendalam adalah tujuan Anda, saya tetap merekomendasikan membaca laporan lengkapnya.

    Karena studi dimulai pada Juni, sebelum OpenAI merilis GPT-5, Anthropic menggunakan GPT-4o, GPT-4.1, o3, dan o4-mini serta mengujinya dengan Claude Opus 4 dan Claude Sonnet 4. Pada tingkat makro, perusahaan menyatakan bahwa tidak ada model dari perusahaan mana pun yang "sangat tidak selaras", tetapi menemukan beberapa "perilaku yang mengkhawatirkan".

    Beberapa temuan luas yang dijabarkan perusahaan antara lain: model o3 OpenAI menunjukkan perilaku yang lebih selaras dibanding Claude Opus 4 pada sebagian besar evaluasi, sementara o4-mini, GPT-4o, dan GPT-4.1 berperilaku lebih mengkhawatirkan daripada model Claude mana pun dan jauh lebih bersedia bekerja sama dengan penyalahgunaan oleh manusia (pengembangan senjata biologis, perencanaan operasional serangan teror, dll.).

    Selain itu, beberapa model dari kedua pengembang menunjukkan sycophancy, sifat terlalu penurut yang sering menjangkiti model AI, terhadap pengguna (simulasi), bahkan mengiyakan delusi mereka. Pada April, OpenAI menarik update untuk GPT-4o karena sycophancy. Anthropic menambahkan bahwa semua model mencoba melaporkan dan memeras operator manusianya (simulasi) "setidaknya kadang-kadang".

    "Audit ini mengungkap dilema desain fundamental dalam model AI terkait menyeimbangkan sycophancy atau keinginan untuk menyenangkan dengan biaya apa pun, versus merekayasa model yang keras kepala dan asketik seperti sering menolak untuk bertindak sama sekali. Bagi pasar yang menuangkan triliunan ke AI, ini adalah realita yang menyadarkan," kata Dekate.

    Perusahaan juga menjalankan evaluasi sabotase SHADE-Arena, yang mengukur keberhasilan model dalam sabotase halus. Model-model Claude menunjukkan tingkat keberhasilan absolut yang lebih tinggi, yang diatribusikan perusahaan pada kemampuan agenik umum model yang lebih unggul.

    Tinjauan Metodologi yang Lebih Mendalam
    Anthropic menggunakan agen audit perilaku otomatis — juga digunakan dalam system card Claude 4 — untuk mendapatkan sebagian besar temuan. Metode ini menggunakan agen berbasis Claude untuk menciptakan ribuan interaksi simulasi yang menguji perilaku model OpenAI dalam lingkungan yang dihasilkan Claude. Hasilnya dinilai menggunakan ringkasan yang dihasilkan Claude dan review manual. Sekali lagi, model penalaran khusus o3 OpenAI sering berkinerja setara atau lebih baik daripada model-model Anthropic.

    Perusahaan juga menggunakan testbed misalignment agenik, yang dibangun dan direkayasa secara manual untuk menguji kemampuan model dalam melakukan perilaku berbahaya secara independen. Hasilnya menunjukkan bahwa GPT-4.1 kurang lebih setara dengan performa model Claude Sonnet, dan GPT-4o memiliki tingkat yang mirip, jika tidak sedikit lebih rendah, dengan Claude Haiku 3.5. Seperti dibahas di atas, Anthropic juga menjalankan evaluasi sabotase SHADE-Arena (hasil dibahas di atas).

    Anthropic juga menjalankan asesmen terhadap agen kedua, Agen Investigator, yang mampu mengevaluasi perilaku model sepenuhnya otonom, seperti dalam skenario pengujian, dan tidak perlu diberi prompt sebelumnya. Temuan di semua model konsisten.

    "Temuan utama auditor di semua enam model dari kedua pengembang adalah prompt yang memicu perilaku terkait penyalahgunaan," kata Anthropic dalam laporan.

    Untuk menyimpulkan temuan, Anthropic mengakui bahwa asesmen masih terus berkembang dan ada area yang mungkin belum tercakup. Perusahaan juga mencatat bahwa update pada modelnya telah mengatasi beberapa kelemahan yang ditemukan dalam laporan OpenAI.

MEMBACA  Cara Menonton Rugby Championship 2025 Gratis: Australia vs. Selandia Baru