Cara OpenAI Pantau Penyalahgunaan ChatGPT

Laporan terbaru OpenAI mengenai penyalahgunaan AI menggarisbawahi dilema yang dihadapi perusahaan-perusahaan teknologi kecerdasan buatan: menyeimbangkan pencegahan penyalahgunaan chatbot dengan menjamin privasi pengguna.

Laporan yang diterbitkan hari ini menyoroti berbagai kasus di mana OpenAI menyelidiki dan mengganggu aktivitas berbahaya yang melibatkan model-modelnya, dengan fokus pada penipuan, serangan siber, dan kampanye pengaruh yang dikaitkan dengan pemerintahan. Namun, publikasi ini muncul di tengah meningkatnya sorotan terhadap jenis risiko AI lainnya, yaitu potensi bahaya psikologis dari chatbot. Tahun ini saja, telah muncul beberapa laporan tentang pengguna yang melakukan tindakan melukai diri sendiri, bunuh diri, dan pembunuhan setelah berinteraksi dengan model AI. Laporan baru ini, bersama dengan pengungkapan perusahaan sebelumnya, memberikan sedikit gambaran tambahan tentang bagaimana OpenAI memoderasi percakapan untuk berbagai jenis penyalahgunaan.

OpenAI menyatakan bahwa sejak mereka mulai melaporkan ancaman publik pada Februari 2024, mereka telah mengganggu dan melaporkan lebih dari 40 jaringan yang melanggar kebijakan penggunaan. Dalam laporan hari ini, perusahaan membagikan studi kasus baru dari kuartal terakhir serta rincian tentang cara mereka mendeteksi dan mengganggu penggunaan model mereka untuk tujuan jahat.

Sebagai contoh, perusahaan mengidentifikasi sebuah jaringan kejahatan terorganisir yang berbasis di Kamboja, yang mencoba menggunakan AI untuk merampingkan alur kerjanya. Selain itu, sebuah operasi pengaruh politik Rusia dilaporkan menggunakan ChatGPT untuk menghasilkan perintah video bagi model AI lainnya. OpenAI juga menandai akun-akun yang dikaitkan dengan pemerintah Tiongkok yang melanggar kebijaknya tentang penggunaan untuk keamanan nasional, termasuk permintaan untuk membuat proposal sistem berskala besar yang dirancang untuk memantau percakapan media sosial.

Perusahaan sebelumnya telah menyatakan, termasuk dalam kebijakan privasi-nya, bahwa mereka menggunakan data pribadi, seperti perintah pengguna, untuk ‘mencegah penipuan, aktivitas ilegal, atau penyalahgunaan’ layanannya. OpenAI juga mengandalkan sistem otomatis dan peninjau manusia untuk memantau aktivitas. Namun dalam laporan hari ini, perusahaan memberikan sedikit lebih banyak wawasan tentang proses pemikiran mereka untuk mencegah penyalahgunaan sambil tetap melindungi pengguna secara lebih luas.

MEMBACA OpenAI mengungkap model penalaran o3 yang paling canggih pada hari terakhir 'shipmas'nya

“Untuk mendeteksi dan mengganggu ancaman secara efektif tanpa mengganggu pekerjaan pengguna biasa, kami menerapkan pendekatan yang bernuansa dan terinformasi yang berfokus pada pola perilaku pelaku ancaman, bukan pada interaksi model yang terisolasi,” tulis perusahaan dalam laporannya.

Sementara memantau pelanggaran keamanan nasional adalah satu hal, perusahaan baru-baru ini juga merinci bagaimana mereka menangani penggunaan modelnya yang berbahaya oleh pengguna yang mengalami tekanan emosional atau mental. Sekitar sebulan yang lalu, perusahaan menerbitkan sebuah blog post yang merinci penanganan mereka terhadap situasi semacam ini. Postingan tersebut muncul di tengah pemberitaan media tentang insiden kekerasan yang dikaitkan dengan interaksi ChatGPT, termasuk sebuah pembunuhan-bunuh diri di Connecticut.

Perusahaan mengatakan bahwa ketika pengguna menuliskan keinginan untuk melukai diri sendiri, ChatGPT telah dilatih untuk tidak mematuhinya, melainkan mengakui perasaan pengguna dan mengarahkan mereka menuju bantuan serta sumber daya di dunia nyata.

Ketika AI mendeteksi seseorang merencanakan untuk melukai orang lain, percakapan tersebut akan ditandai untuk ditinjau oleh manusia. Jika peninjau manusia menilai orang tersebut merupakan ancaman segera bagi orang lain, mereka dapat melaporkannya kepada penegak hukum.

OpenAI juga mengakui bahwa kinerja keamanan modelnya dapat menurun selama interaksi pengguna yang lebih panjang dan menyatakan bahwa mereka telah berupaya untuk meningkatkan pengamanannya.