Peneliti Membuat Peringkat Model AI Berdasarkan Risiko dan Menemukan Rentang yang Luas

Bo Li, seorang profesor asosiasi di Universitas Chicago yang mengkhususkan diri dalam pengujian stres dan memprovokasi model AI untuk mengungkap perilaku yang tidak benar, telah menjadi sumber andalan bagi beberapa perusahaan konsultan. Konsultan-konsultan ini sekarang lebih sedikit khawatir dengan seberapa cerdas model AI daripada seberapa bermasalah—secara hukum, secara etis, dan dalam hal kepatuhan regulasi—mereka bisa.

Li dan rekan-rekannya dari beberapa universitas lain, serta Virtue AI, yang didirikan oleh Li, dan Lapis Labs, baru-baru ini mengembangkan taksonomi risiko AI beserta benchmark yang mengungkap seberapa melanggar aturan model bahasa besar yang berbeda. “Kita perlu beberapa prinsip untuk keamanan AI, dalam hal kepatuhan regulasi dan penggunaan biasa,” kata Li kepada WIRED.

Para peneliti menganalisis regulasi dan pedoman AI pemerintah, termasuk Amerika Serikat, Tiongkok, dan Uni Eropa, dan mempelajari kebijakan penggunaan 16 perusahaan AI besar dari seluruh dunia.

Para peneliti juga membangun AIR-Bench 2024, sebuah benchmark yang menggunakan ribuan promp untuk menentukan seberapa baik model AI populer dalam hal risiko tertentu. Misalnya, menunjukkan bahwa Claude 3 Opus dari Anthropic menduduki peringkat tinggi dalam menolak menghasilkan ancaman keamanan siber, sementara Gemini 1.5 Pro dari Google menduduki peringkat tinggi dalam menghindari menghasilkan ketelanjangan seksual nonkonsensual.

DBRX Instruct, sebuah model yang dikembangkan oleh Databricks, mendapat skor terburuk secara umum. Ketika perusahaan merilis modelnya pada bulan Maret, mereka mengatakan bahwa mereka akan terus meningkatkan fitur keamanan DBRX Instruct.

Anthropic, Google, dan Databricks tidak segera merespons permintaan untuk berkomentar.

Memahami lanskap risiko, serta pro dan kontra model-model tertentu, mungkin menjadi semakin penting bagi perusahaan yang ingin menggunakan AI di pasar tertentu atau untuk kasus penggunaan tertentu. Sebuah perusahaan yang ingin menggunakan LLM untuk layanan pelanggan, misalnya, mungkin lebih peduli dengan kecenderungan model menghasilkan bahasa yang ofensif ketika diprovokasi daripada seberapa mampu model tersebut merancang sebuah perangkat nuklir.

MEMBACA  Apple Podcasts mendapatkan transkrip yang dihasilkan secara otomatis dengan iOS 17.4.

Bo mengatakan analisis juga mengungkap beberapa masalah menarik dengan bagaimana AI dikembangkan dan diatur. Misalnya, para peneliti menemukan aturan pemerintah kurang komprehensif daripada kebijakan perusahaan secara keseluruhan, menunjukkan ada ruang untuk mengencangkan regulasi.

Analisis juga menyarankan bahwa beberapa perusahaan bisa melakukan lebih banyak untuk memastikan model-model mereka aman. “Jika Anda menguji beberapa model terhadap kebijakan perusahaan, mereka tidak selalu patuh,” kata Bo. “Ini berarti ada banyak ruang bagi mereka untuk meningkatkan.”

Peneliti lain berusaha membawa keteraturan ke lanskap risiko AI yang berantakan dan membingungkan. Minggu ini, dua peneliti di MIT mengungkapkan database mereka sendiri tentang bahaya AI, yang dikompilasi dari 43 kerangka risiko AI yang berbeda. “Banyak organisasi masih cukup awal dalam proses tersebut mengadopsi AI,” yang berarti mereka memerlukan bimbingan tentang bahaya-bahaya yang mungkin, kata Neil Thompson, seorang ilmuwan riset di MIT yang terlibat dalam proyek tersebut.

Peter Slattery, yang memimpin proyek dan seorang peneliti di kelompok FutureTech MIT, yang mempelajari kemajuan dalam komputasi, mengatakan database tersebut menyoroti fakta bahwa beberapa risiko AI mendapatkan lebih banyak perhatian daripada yang lain. Lebih dari 70 persen kerangka kerja menyebutkan masalah privasi dan keamanan, misalnya, tetapi hanya sekitar 40 persen merujuk pada misinformasi.

Upaya untuk mencatat dan mengukur risiko AI akan harus berkembang seiring dengan perkembangan AI. Li mengatakan penting untuk mengeksplorasi isu-isu baru yang muncul seperti keklebrakkan emosional dari model AI. Perusahaannya baru-baru ini menganalisis versi terbesar dan terkuat dari model Llama 3.1 dari Meta. Mereka menemukan bahwa meskipun model tersebut lebih mampu, model tersebut tidak terlalu aman, sesuatu yang mencerminkan ketidakselarasan yang lebih luas. “Keamanan tidak benar-benar meningkat secara signifikan,” kata Li.

MEMBACA  Penyedia Internet Terbaik di Grand Rapids, Michigan