Minggu lalu, OpenAI memperkenalkan dua alat baru yang bisa diunduh gratis. Tujuannya adalah untuk membantu perusahaan membuat pagar pengaman lebih mudah untuk prompt yang diberikan pengguna ke model AI dan juga untuk output yang dihasilkan sistem AI itu.
Pagar pengaman baru ini dirancang agar perusahaan bisa, contohnya, lebih mudah mengatur kontrol untuk mencegah chatbot layanan pelanggan merespons dengan nada kasar atau membocorkan kebijakan internal tentang cara memberi pengembalian dana.
Namun, meski alat ini dirancang untuk membuat model AI lebih aman bagi pelanggan bisnis, beberapa ahli keamanan memperingatkan bahwa cara OpenAI merilisnya justru bisa menciptakan kerentanan baru dan memberi perusahaan rasa aman yang palsu. Sementara OpenAI bilang mereka merilis alat keamanan ini untuk kebaikan semua orang, beberapa orang bertanya-tanya apakah motivasi OpenAI juga didorong oleh keinginan untuk mengurangi keunggulan pesaing AI-nya, Anthropic. Anthropic mendapat banyak pengguna bisnis karena model Claude-nya dianggap memiliki pagar pengaman yang lebih kuat.
Alat keamanan OpenAI—yang disebut gpt-oss-safeguard-120b dan gpt-oss-safeguard-20b—sendiri adalah sejenis model AI yang disebut classifier. Fungsinya untuk menilai apakah prompt yang dikirim pengguna ke model AI yang lebih besar serta output yang dihasilkan model AI itu sesuai dengan aturan yang ditetapkan. Sebelumnya, perusahaan yang membeli model AI bisa melatih classifier ini sendiri, tapi prosesnya memakan waktu dan mahal. Jika kebijakan berubah, mereka harus mengumpulkan contoh baru dan melatih ulang classifier-nya.
OpenAI berharap alat baru ini bisa membuat proses itu lebih cepat dan fleksibel. Alih-alih dilatih untuk satu aturan tetap, classifier keamanan baru ini bisa langsung membaca kebijakan tertulis dan menerapkannya ke konten baru.
OpenAI menyebut metode ini sebagai "reasoning-based classification". Metode ini memungkinkan perusahaan mengubah kebijakan keamanan mereka semudah mengedit teks di dokumen, tanpa harus membangun ulang model classifier. Perusahaan ini memposisikan rilis ini sebagai alat untuk perusahaan yang ingin lebih mengontrol bagaimana sistem AI mereka menangani informasi sensitif, seperti rekam medis atau data karyawan.
Namun, meski alat ini seharusnya lebih aman untuk pelanggan perusahaan, beberapa ahli keselamatan mengatakan bahwa alat ini justru bisa memberi pengguna rasa aman yang palsu. Ini karena OpenAI telah open-source-kan classifier AI-nya. Artinya, mereka membuat semua kode untuk classifier tersedia gratis, termasuk weights-nya, yaitu pengaturan internal model AI.
Classifier berfungsi seperti gerbang keamanan tambahan untuk sistem AI, yang dirancang untuk menghentikan prompt yang tidak aman atau jahat sebelum mencapai model utama. Tapi dengan membuatnya open-source, OpenAI berisiko membagikan cetak biru gerbang-gerbang itu. Transparansi ini bisa membantu peneliti memperkuat mekanisme keamanan, tapi juga bisa memudahkan penyerang untuk menemukan titik lemah dan risikonya, menciptakan kenyamanan palsu.
"Membuat model ini open source bisa membantu penyerang maupun pembela," kata David Krueger, seorang profesor keamanan AI di Mila, kepada Fortune. "Ini akan memudahkan pengembangan cara untuk melewati classifier dan pengaman sejenis lainnya."
Misalnya, ketika penyerang punya akses ke weights classifier, mereka bisa lebih mudah mengembangkan serangan "prompt injection". Di serangan ini, mereka membuat prompt yang menipu classifier agar mengabaikan kebijakan yang seharusnya diterapkan. Peneliti keamanan menemukan bahwa dalam beberapa kasus, bahkan serangkaian karakter yang terlihat tidak masuk akal bagi manusia bisa, untuk alasan yang tidak sepenuhnya dipahami, meyakinkan model AI untuk mengabaikan pagar pengamannya dan melakukan hal yang tidak seharusnya, seperti memberi nasihat untuk membuat bom atau menyebarkan ujaran kebencian rasis.
Perwakilan OpenAI mengarahkan Fortune ke postingan blog pengumuman perusahaan dan laporan teknis untuk model-model tersebut.
Rasa sakit jangka pendek untuk keuntungan jangka panjang
Open-source bisa menjadi pedang bermata dua dalam hal keamanan. Ini memungkinkan peneliti dan pengembang untuk menguji, meningkatkan, dan menyesuaikan pengaman AI lebih cepat, meningkatkan transparansi dan kepercayaan. Misalnya, mungkin ada cara di mana peneliti keamanan dapat menyesuaikan weights model untuk membuatnya lebih tahan terhadap prompt injection tanpa menurunkan kinerja model.
Tapi itu juga bisa memudahkan penyerang untuk mempelajari dan melewati perlindungan itu—misalnya, dengan menggunakan perangkat lunak machine learning lain untuk menjalankan ratusan ribu kemungkinan prompt sampai menemukan yang menyebabkan model melompati pagar pengamannya. Selain itu, peneliti keamanan menemukan bahwa serangan prompt injection yang dihasilkan secara otomatis ini, yang dikembangkan pada model AI open source, kadang-kadang juga berhasil melawan model AI berpemilik, di mana penyerang tidak memiliki akses ke kode dan weights model dasarnya. Peneliti menduga ini karena mungkin ada sesuatu yang melekat dalam cara semua model bahasa besar mengenkode bahasa sehingga prompt injection yang serupa akan berhasil melawan model AI apa pun.
Dengan demikian, open source-kan classifier mungkin tidak hanya memberi pengguna rasa aman palsu bahwa sistem mereka sendiri dijaga dengan baik, tapi mungkin actually membuat setiap model AI kurang aman. Tapi para ahli mengatakan bahwa risiko ini mungkin sepadan untuk diambil karena open source-kan classifier seharusnya juga memudahkan semua ahli keamanan di dunia untuk menemukan cara membuat classifier lebih tahan terhadap serangan semacam ini.
“Dalam jangka panjang, berbagi cara kerja pertahanan Anda itu menguntungkan—itu mungkin mengakibatkan semacam rasa sakit jangka pendek. Tapi dalam jangka panjang, itu menghasilkan pertahanan yang kuat yang sebenarnya cukup sulit untuk dihindari,” kata Vasilios Mavroudis, ilmuwan peneliti utama di Alan Turing Institute.
Mavroudis mengatakan bahwa meski open source-kan classifier bisa, secara teori, memudahkan seseorang untuk mencoba melewati sistem keamanan pada model utama OpenAI, perusahaan kemungkinan percaya risikonya rendah. Dia mengatakan bahwa OpenAI memiliki pengaman lain, termasuk tim ahli keamanan manusia yang terus-menerus mencoba menguji pagar pengaman model mereka untuk menemukan kerentanan dan semoga meningkatkannya.
"Open-sourcing model classifier memberi peluang bagi mereka yang ingin melewati classifier untuk mempelajari caranya. Tapi peretas yang bertekad kuat kemungkinan akan berhasil anyway," kata Robert Trager, salah satu direktur Oxford Martin AI Governance Initiative.
"Kami baru-baru ini menemukan metode yang melewati semua pengaman dari pengembang utama sekitar 95% dari waktu — dan kami tidak mencari metode seperti itu. Mengingat bahwa peretas yang bertekad kuat akan berhasil anyway, sangat berguna untuk open-source-kan sistem yang bisa digunakan pengembang untuk orang-orang yang kurang bertekad," tambahnya.
Perlombaan AI untuk perusahaan
Rilis ini juga memiliki implikasi kompetitif, terutama karena OpenAI ingin menantang pijakan pesaing AI-nya, Anthropic, yang semakin berkembang di antara pelanggan perusahaan. Model AI keluarga Claude Anthropic menjadi populer di kalangan pelanggan perusahaan sebagian karena reputasinya akan kontrol keamanan yang lebih kuat dibandingkan model AI lainnya. Di antara alat keamanan yang digunakan Anthropic adalah "constitutional classifiers" yang cara kerjanya mirip dengan yang baru saja di-open-source-kan oleh OpenAI.
Anthropic telah mengukir ceruk pasar dengan pelanggan perusahaan, terutama dalam hal pemrograman. Menurut laporan Juli dari Menlo Ventures, Anthropic memegang 32% pangsa pasar model bahasa besar perusahaan berdasarkan penggunaan, dibandingkan dengan 25% untuk OpenAI. Dalam kasus penggunaan khusus pemrograman, Anthropic dilaporkan memegang 42%, sementara OpenAI memiliki 21%. Dengan menawarkan alat yang berfokus pada perusahaan, OpenAI mungkin berusaha untuk memenangkan beberapa pelanggan bisnis ini, sementara juga memposisikan diri sebagai pemimpin dalam keamanan AI.
"Constitutional classifiers" Anthropic terdiri dari model bahasa kecil yang memeriksa output model yang lebih besar terhadap seperangkat nilai atau kebijakan tertulis. Dengan open-source-kan kemampuan yang serupa, OpenAI secara efektif memberi pengembang jenis pagar pengaman yang dapat disesuaikan yang membantu membuat model Anthropic sangat menarik.
"Dari yang saya lihat dari komunitas, sepertinya diterima dengan baik," kata Mavroudis. "Mereka melihat model ini berpotensi sebagai cara untuk memiliki moderasi otomatis. Ini juga datang dengan konotasi yang baik, seperti, ‘kami memberi kepada komunitas.’ Ini mungkin juga alat yang berguna untuk usaha kecil di mana mereka tidak akan mampu melatih model seperti itu sendiri."
Beberapa ahli juga khawatir bahwa open-source-kan classifier keamanan ini bisa memusatkan definisi tentang apa yang dianggap sebagai AI yang "aman".
"Keamanan bukan konsep yang jelas batasannya. Setiap implementasi standar keamanan akan mencerminkan nilai dan prioritas organisasi yang menciptakannya, serta batasan dan kekurangan modelnya," kata John Thickstun, asisten profesor ilmu komputer di Universitas Cornell, kepada VentureBeat. "Jika industri secara keseluruhan mengadopsi standar yang dikembangkan oleh OpenAI, kita berisiko menginstitusionalisasi satu perspektif tertentu tentang keselamatan dan memotong investigasi yang lebih luas tentang kebutuhan keamanan untuk penerapan AI di berbagai sektor masyarakat."