OpenAI benar-benar tidak ingin Anda tahu apa yang dipikirkan model AI terbarunya. Sejak perusahaan meluncurkan keluarga model AI “Strawberry” minggu lalu, dengan membanggakan kemampuan berpikirnya yang disebut o1-preview dan o1-mini, OpenAI telah mengirimkan email peringatan dan ancaman larangan kepada pengguna yang mencoba menyelidiki cara kerja model tersebut.
Tidak seperti model AI sebelumnya dari OpenAI, seperti GPT-4o, perusahaan melatih o1 khususnya untuk bekerja melalui proses pemecahan masalah langkah demi langkah sebelum menghasilkan jawaban. Saat pengguna bertanya kepada model “o1” di ChatGPT, pengguna memiliki opsi untuk melihat proses berpikir ini ditulis dalam antarmuka ChatGPT. Namun, secara desain, OpenAI menyembunyikan rantai pemikiran mentah dari pengguna, dan malah menyajikan interpretasi yang difilter oleh model AI kedua.
Tidak ada yang lebih menarik bagi penggemar daripada informasi yang tersembunyi, sehingga perlombaan telah dimulai di antara para peretas dan tim merah untuk mencoba mengungkap rantai pemikiran mentah o1 menggunakan teknik jailbreaking atau injeksi prompt yang mencoba menipu model untuk membocorkan rahasianya. Ada laporan awal tentang beberapa keberhasilan, tetapi belum ada yang benar-benar dikonfirmasi.
Sementara itu, OpenAI memantau melalui antarmuka ChatGPT, dan perusahaan dilaporkan menindak tegas segala upaya untuk menyelidiki pemikiran o1, bahkan di antara mereka yang hanya penasaran.
Satu pengguna X melaporkan (dikonfirmasi oleh yang lain, termasuk insinyur prompt Scale AI Riley Goodside) bahwa mereka menerima email peringatan jika mereka menggunakan istilah “jejak pemikiran” dalam percakapan dengan o1. Orang lain mengatakan peringatan dipicu hanya dengan bertanya kepada ChatGPT tentang “pemikiran” model tersebut.
Email peringatan dari OpenAI menyatakan bahwa permintaan pengguna tertentu telah ditandai karena melanggar kebijakan melawan menghindari perlindungan atau tindakan keamanan. “Harap hentikan kegiatan ini dan pastikan Anda menggunakan ChatGPT sesuai dengan Ketentuan Penggunaan dan Kebijakan Penggunaan kami,” tulisnya. “Pelanggaran tambahan terhadap kebijakan ini dapat mengakibatkan kehilangan akses ke GPT-4o dengan Penalaran,” merujuk pada nama internal untuk model o1.
Marco Figueroa, yang mengelola program bounty bug GenAI dari Mozilla, adalah salah satu yang pertama kali memposting tentang email peringatan OpenAI di X Jumat lalu, mengeluh bahwa hal ini menghambat kemampuannya untuk melakukan penelitian keselamatan red-teaming yang positif pada model tersebut. “Saya terlalu terfokus pada #AIRedTeaming untuk menyadari bahwa saya menerima email ini dari @OpenAI kemarin setelah semua jailbreak saya,” tulisnya. “Saya sekarang masuk daftar terlarang!!!”
Rantai Pemikiran Tersembunyi
Dalam sebuah posting berjudul “Belajar Berpikir Dengan LLMs” di blog OpenAI, perusahaan mengatakan bahwa rantai pemikiran tersembunyi dalam model AI menawarkan kesempatan pemantauan yang unik, memungkinkan mereka untuk “membaca pikiran” dari model dan memahami proses berpikirnya yang disebut. Proses-proses itu paling berguna bagi perusahaan jika mereka dibiarkan mentah dan tanpa sensor, tetapi itu mungkin tidak sejalan dengan kepentingan komersial terbaik perusahaan untuk beberapa alasan.
“Misalnya, di masa depan kita mungkin ingin memantau rantai pemikiran untuk tanda-tanda memanipulasi pengguna,” tulis perusahaan. “Namun, agar ini berhasil, model harus memiliki kebebasan untuk mengungkapkan pemikirannya dalam bentuk yang tidak terubah, sehingga kami tidak bisa melatih kepatuhan kebijakan atau preferensi pengguna ke dalam rantai pemikiran. Kami juga tidak ingin membuat rantai pemikiran yang tidak selaras langsung terlihat oleh pengguna.”