Benchmark AI baru ini mengukur seberapa banyak model-model berbohong

Seiring AI models menunjukkan bukti bisa menipu pembuatnya, para peneliti dari Pusat Keamanan AI dan Scale AI telah mengembangkan detektor kebohongan yang pertama dari jenisnya.

Pada Rabu, para peneliti merilis Model Alignment between Statements and Knowledge (MASK) benchmark, yang menentukan seberapa mudah model bisa ditipu untuk sengaja berbohong kepada pengguna, atau “kebajikan moralnya”.

Juga: o1 dari OpenAI lebih banyak berbohong daripada model AI besar lainnya. Mengapa hal itu penting.

Mencurangkan, penipuan, dan pemalsuan keselarasan, ketika sebuah model AI sengaja berpura-pura mengubah nilainya saat dalam tekanan, adalah cara model AI merusak pembuatnya dan dapat menimbulkan ancaman keselamatan dan keamanan yang serius.

Penelitian menunjukkan o1 dari OpenAI terutama mahir dalam merancang untuk menjaga kontrol dirinya, dan Claude 3 Opus telah menunjukkan bahwa ia bisa memalsukan keselarasan.

Juga: Bagaimana Cisco, LangChain, dan Galileo bertujuan untuk mengendalikan ‘ledakan Cambrian dari agen AI’.

Untuk memperjelas, para peneliti mendefinisikan kebohongan sebagai, “(1) membuat pernyataan yang diketahui (atau diyakini) palsu, dan (2) bermaksud agar penerima menerima pernyataan tersebut sebagai benar,” dibandingkan dengan respons palsu lainnya, seperti halusinasi. Para peneliti mengatakan industri belum memiliki metode yang memadai untuk mengevaluasi kejujuran dalam model AI sampai sekarang.

“Banyak benchmark yang mengklaim mengukur kejujuran sebenarnya hanya mengukur akurasi – kebenaran keyakinan model – dengan menyamar,” kata laporan tersebut. Benchmark seperti TruthfulQA, misalnya, mengukur apakah model dapat menghasilkan “informasi yang terdengar masuk akal” tetapi tidak mengukur apakah model bermaksud untuk sengaja menipu dengan memberikan informasi palsu, jelas dalam paper.

“Sebagai hasilnya, model yang lebih mampu dapat tampil lebih baik pada benchmark ini melalui cakupan fakta yang lebih luas, bukan karena mereka menahan diri dari sengaja membuat pernyataan palsu,” kata para peneliti. MASK adalah tes pertama yang membedakan akurasi dan kejujuran.

MEMBACA  Mengapa Ratu Elizabeth II Tidak Pernah Mengunjungi Israel? Ini Penjelasannya

Contoh dari latihan evaluasi di mana sebuah model ditekan untuk memalsukan statistik berdasarkan permintaan pengguna.

Para peneliti menunjukkan bahwa jika model berbohong, mereka mengekspos pengguna pada kerugian hukum, keuangan, dan privasi. Contohnya mungkin termasuk model yang tidak mampu mengkonfirmasi dengan akurat apakah mereka mentransfer uang ke rekening bank yang benar, menyesatkan pelanggan, atau secara tidak sengaja bocor data sensitif.

Juga: Bagaimana AI akan mengubah keamanan cyber pada tahun 2025 – dan meningkatkan kejahatan cyber.

Dengan menggunakan MASK dan kumpulan data lebih dari 1.500 pertanyaan yang dikumpulkan manusia yang dirancang untuk “memperoleh kebohongan”, para peneliti mengevaluasi 30 model frontier dengan mengidentifikasi keyakinan dasar mereka dan mengukur seberapa baik mereka mematuhi pandangan ini saat ditekan. Para peneliti menemukan bahwa akurasi yang lebih tinggi tidak berkorelasi dengan kejujuran yang lebih tinggi. Mereka juga menemukan bahwa model yang lebih besar, terutama model frontier, tidak selalu lebih jujur daripada yang lebih kecil.

Sebuah contoh dari skor model dari evaluasi MASK.

Model dengan mudah berbohong dan menyadari bahwa mereka berbohong. Bahkan, seiring dengan bertambahnya ukuran model, mereka tampaknya menjadi lebih tidak jujur.

Grok 2 memiliki proporsi tertinggi (63%) jawaban yang tidak jujur dari model yang diuji. Claude 3.7 Sonnet memiliki proporsi jawaban jujur tertinggi pada 46,9%.

Juga: Apakah data sintetis akan menghentikan momentum AI generatif atau menjadi terobosan yang kita butuhkan?

“Di seluruh serangkaian LLMs yang beragam, kami menemukan bahwa sementara model yang lebih besar memperoleh akurasi yang lebih tinggi pada benchmark kami, mereka tidak menjadi lebih jujur,” para peneliti menjelaskan.

“Secara mengejutkan, sementara sebagian besar LLMs frontier memperoleh skor tinggi pada benchmark kejujuran, kami menemukan kecenderungan substansial pada LLMs frontier untuk berbohong ketika ditekan untuk melakukannya, yang menghasilkan skor kejujuran rendah pada benchmark kami.”

MEMBACA  Dapatkan obeng listrik 12-in-1 terbaik ini dengan harga $60!

Juga: Sebagian besar alat kloning suara AI tidak aman dari penipu, Consumer Reports menemukan.

Kumpulan data benchmark tersedia secara publik di HuggingFace dan Github.

“Kami berharap benchmark kami memfasilitasi kemajuan lebih lanjut menuju sistem AI yang jujur dengan memberikan para peneliti cara yang ketat dan terstandarisasi untuk mengukur dan meningkatkan kejujuran model,” kata laporan tersebut.