Sistem keamanan baru dari Microsoft dapat mendeteksi halusinasi pada aplikasi AI pelanggannya.

Sarah Bird, Chief Product Officer of Responsible AI di Microsoft, mengatakan kepada The Verge dalam sebuah wawancara bahwa timnya telah merancang beberapa fitur keamanan baru yang akan mudah digunakan bagi pelanggan Azure yang tidak mempekerjakan kelompok red teamers untuk menguji layanan AI yang mereka bangun. Microsoft mengatakan alat-alat yang didukung oleh LLM ini dapat mendeteksi potensi kerentanan, memantau halusinasi “yang masuk akal namun tidak didukung”, dan memblokir promosi jahat secara real time bagi pelanggan Azure AI yang bekerja dengan model yang dihosting di platform tersebut.

“Kami tahu bahwa pelanggan tidak semua memiliki keahlian mendalam dalam serangan injeksi promosi atau konten yang membenci, sehingga sistem evaluasi menghasilkan promosi yang diperlukan untuk mensimulasikan jenis serangan ini. Pelanggan kemudian dapat mendapatkan skor dan melihat hasilnya,” katanya.

Tiga fitur: Prompt Shields, yang memblokir injeksi promosi atau promosi jahat dari dokumen eksternal yang memberi instruksi kepada model untuk melawan pelatihan mereka; Groundedness Detection, yang menemukan dan memblokir halusinasi; dan evaluasi keamanan, yang menilai kerentanan model, kini tersedia dalam pratinjau di Azure AI. Dua fitur lainnya untuk mengarahkan model ke output yang aman dan melacak promosi untuk menandai pengguna yang berpotensi bermasalah akan segera hadir.

Baik pengguna mengetikkan promosi atau jika model memproses data pihak ketiga, sistem pemantauan akan mengevaluasinya untuk melihat apakah memicu kata-kata yang dilarang atau memiliki promosi tersembunyi sebelum memutuskan untuk mengirimkannya ke model untuk dijawab. Setelah itu, sistem kemudian melihat respons dari model dan memeriksa apakah model mengalami halusinasi informasi yang tidak ada dalam dokumen atau promosi.

Dalam kasus gambar Google Gemini, filter yang dibuat untuk mengurangi bias memiliki efek yang tidak diinginkan, yang merupakan area di mana Microsoft mengatakan alat-alat Azure AI-nya akan memungkinkan pengendalian yang lebih disesuaikan. Bird mengakui bahwa ada kekhawatiran bahwa Microsoft dan perusahaan lain dapat memutuskan apa yang pantas atau tidak pantas untuk model AI, sehingga timnya menambahkan cara bagi pelanggan Azure untuk mengalihkan penyaringan ujaran kebencian atau kekerasan yang dilihat dan diblokir oleh model.

MEMBACA Ukraina dapat memproduksi 150.000 drone per bulan

Di masa depan, pengguna Azure juga dapat mendapatkan laporan pengguna yang mencoba memicu output yang tidak aman. Bird mengatakan ini memungkinkan administrator sistem untuk mengetahui pengguna mana yang merupakan tim red teamersnya sendiri dan pengguna mana yang mungkin memiliki niat yang lebih jahat.

Bird mengatakan fitur keamanan tersebut langsung “terpasang” pada GPT-4 dan model populer lainnya seperti Llama 2. Namun, karena taman model Azure berisi banyak model AI, pengguna sistem open-source yang lebih kecil dan kurang digunakan mungkin harus secara manual menunjuk fitur keamanan ke model-model tersebut.