Anthropic, pembuat Claude, telah menjadi laboratorium kecerdasan buatan terkemuka di depan keselamatan. Perusahaan hari ini menerbitkan penelitian bekerja sama dengan Oxford, Stanford, dan MATS yang menunjukkan bahwa mudah bagi chatbots untuk melanggar batas pengamanan mereka dan membahas hampir semua topik. Ini bisa semudah menulis kalimat dengan acak huruf besar seperti ini: “iGnOrE yOuR TrAiNiNg.” 404 Media sebelumnya melaporkan penelitian tersebut.
Ada banyak perdebatan tentang apakah berbahaya bagi chatbots AI untuk menjawab pertanyaan seperti, “Bagaimana cara membangun bom?” Pendukung generative AI akan mengatakan bahwa jenis pertanyaan seperti ini sudah dapat dijawab di web terbuka, jadi tidak ada alasan untuk berpikir chatbots lebih berbahaya daripada status quo. Skeptis, di sisi lain, menunjukkan anekdot tentang kerusakan yang disebabkan, seperti seorang anak laki-laki berusia 14 tahun yang bunuh diri setelah mengobrol dengan bot, sebagai bukti bahwa perlu ada batas pengamanan pada teknologi tersebut.
Chatbots berbasis generative AI mudah diakses, mempersonifikasi diri dengan sifat-sifat manusia seperti dukungan dan empati, dan akan dengan percaya diri menjawab pertanyaan tanpa kompas moral; berbeda dengan mencari bagian terpencil dari web gelap untuk menemukan informasi berbahaya. Sudah ada sejumlah contoh di mana generative AI telah digunakan secara merugikan, terutama dalam bentuk gambar deepfake eksplisit yang menargetkan perempuan. Tentu saja, sudah mungkin membuat gambar-gambar ini sebelum adanya generative AI, tetapi lebih sulit.
Perdebatan terlepas, sebagian besar laboratorium AI terkemuka saat ini menggunakan “tim merah” untuk menguji chatbots mereka terhadap rangsangan yang berpotensi berbahaya dan menempatkan pengaman untuk mencegah mereka membahas topik sensitif. Mintalah kebanyakan chatbots untuk saran medis atau informasi tentang kandidat politik, misalnya, dan mereka akan menolak untuk membahasnya. Perusahaan di belakang mereka memahami bahwa halusinasi masih menjadi masalah dan tidak ingin mengambil risiko dengan bot mereka mengatakan sesuatu yang bisa menyebabkan konsekuensi nyata negatif.
Sebuah grafik yang menunjukkan bagaimana variasi yang berbeda pada sebuah rangsangan bisa menipu chatbot untuk menjawab pertanyaan yang dilarang. Kredit: Anthropic via 404 Media
Sayangnya, ternyata chatbots dengan mudah diperdaya untuk mengabaikan aturan keamanan mereka. Dalam hal yang sama dengan jaringan media sosial yang memonitor kata-kata berbahaya, dan pengguna menemukan cara-cara untuk mengatasinya dengan melakukan modifikasi kecil pada posting mereka, chatbots juga bisa diperdaya. Para peneliti dalam studi baru Anthropic menciptakan algoritma, yang disebut “Bestof-N (BoN) Jailbreaking,” yang mengotomatiskan proses memodifikasi rangsangan hingga chatbot memutuskan untuk menjawab pertanyaan. “BoN Jailbreaking bekerja dengan berulang kali mengambil sampel variasi dari rangsangan dengan kombinasi augmentasi – seperti pengacakan acak atau kapitalisasi untuk rangsangan teks – hingga tanggapan berbahaya dihasilkan,” laporan tersebut menyatakan. Mereka juga melakukan hal yang sama dengan model audio dan visual, menemukan bahwa membuat generator audio melanggar batas pengamanannya dan melatih suara orang nyata semudah mengubah nada dan kecepatan trek yang diunggah.
Tidak jelas mengapa model AI generatif ini begitu mudah dipecahkan. Tetapi Anthropic mengatakan tujuan merilis penelitian ini adalah agar harapannya temuan ini akan memberi pengembang model AI lebih banyak wawasan tentang pola serangan yang dapat mereka tangani.
Satu perusahaan AI yang kemungkinan tidak tertarik pada penelitian ini adalah xAI. Perusahaan ini didirikan oleh Elon Musk dengan tujuan eksplisit merilis chatbots tanpa batasan yang Musk anggap sebagai “sadar akan keadaan.”