Model-model bahasa besar (LLM) biasanya dievaluasi atas kemampuannya untuk berperforma dengan baik di berbagai bidang, seperti penalaran, matematika, pemrograman, dan Bahasa Inggris – mengabaikan faktor-faktor penting seperti keamanan, privasi, pelanggaran hak cipta, dan lainnya. Untuk mengatasi kesenjangan informasi tersebut, OpenAI merilis Kartu Sistem untuk model-modelnya.
Pada hari Kamis, OpenAI meluncurkan Kartu Sistem GPT-4o, sebuah laporan komprehensif yang memaparkan keamanan LLM berdasarkan evaluasi risiko sesuai dengan Kerangka Kesiapan OpenAI, red-teaming eksternal, dan lainnya.
Kartu Skor mencerminkan skor dalam empat kategori utama: keamanan Siber, ancaman biologis, persuasi, dan otonomi model. Dalam tiga kategori pertama, OpenAI ingin melihat apakah LLM dapat membantu dalam memajukan ancaman di setiap sektor. Pada kategori terakhir, perusahaan mengukur apakah model menunjukkan tanda-tanda melakukan tindakan otonom yang diperlukan untuk meningkatkan dirinya sendiri.
Kategori-kategori tersebut dinilai sebagai “rendah,” “sedang,” “tinggi,” dan “kritikal”. Model-model dengan skor sedang ke bawah diizinkan untuk didisahkan, sementara model-model dengan peringkat tinggi ke bawah perlu dikembangkan lebih lanjut. Secara keseluruhan, OpenAI memberikan GPT-4o peringkat “sedang”.
GPT-4o dinilai “rendah” dalam keamanan Siber, ancaman biologis, dan otonomi model. Namun, ia menerima peringkat “sedang” yang borderline dalam kategori persuasi karena kemampuannya untuk membuat artikel tentang topik politik yang lebih persuasif daripada alternatif yang ditulis oleh manusia profesional tiga dari 12 kali.
Laporan juga membagikan wawasan tentang data yang dilatih GPT-4o, yang mencapai Oktober 2023 dan bersumber dari data yang tersedia secara publik dan data milik kerjasama, termasuk kemitraan OpenAI dengan Shutterstock untuk melatih model penghasil gambar.
Selain itu, laporan tersebut mencakup bagaimana perusahaan mengurangi risiko saat mendisain model untuk mengatasi tantangan keamanan, termasuk kemampuannya untuk menghasilkan konten berhak cipta, ucapan erotis atau kekerasan, suara yang tidak sah, inferensi yang tidak berdasar, dan lainnya. Anda dapat mengakses laporan lengkap 32 halaman di sini untuk mempelajari lebih lanjut tentang spesifikasinya.
Laporan ini mengikuti tuntutan baru-baru ini dari para anggota dewan AS agar OpenAI membagikan data mengenai praktik keamanannya setelah seorang informan mengungkapkan bahwa OpenAI mencegah stafnya dari memberi tahu pihak berwenang mengenai risiko teknologi dan membuat karyawan menolak hak federal mereka untuk kompensasi informan.