Apakah chatbot kecerdasan buatan (AI) favorit Anda sedang berkomitmen untuk melawan Anda? Jika istilah “skema AI” terdengar menyeramkan, perlu diketahui bahwa OpenAI tengah melakukan penelitian mendalam terkait fenomena ini. Minggu ini, OpenAI merilis sebuah studi hasil kolaborasi dengan Apollo Research yang berjudul “Deteksi dan Pengurangan Perilaku Perencanaan Terselubung pada Model AI”. Para peneliti menemukan perilaku yang konsisten dengan skema dalam pengujian terkendali, yang merupakan hasil dari model AI dengan berbagai tujuan yang kadang saling bertentangan.
Lantas, apa sebenarnya yang dimaksud dengan skema AI, dan apakah ini berarti ChatGPT berbohong kepada Anda? Dalam sebuah blog post mengenai studi tersebut, para pembuat ChatGPT mendefinisikan skema AI sebagai keadaan ketika chatbot “berpura-pura patuh sementara diam-diam menjalankan agenda tersembunyi”. OpenAI ingin memahami mengapa AI secara sengaja memberikan informasi yang tidak jujur kepada pengguna serta langkah penanganannya.
OpenAI memperkenalkan studi ini dengan sebuah analogi manusia yang menarik untuk mempermudah pemahaman: Bayangkan seorang trader saham yang tujuannya adalah memaksimalkan keuntungan. Di bidang yang sangat diatur seperti perdagangan saham, seringkali lebih menguntungkan untuk melanggar hukum daripada mematuhinya. Jika trader tersebut tidak memiliki integritas, mereka mungkin akan mencoba mendapatkan lebih banyak uang dengan cara melanggar aturan dan menutupi jejak daripada mendapatkan lebih sedikit dengan tetap mematuhi hukum. Dari luar, seorang trader yang pandai menyembunyikan pelanggaran akan terlihat sama sahnya — dan bahkan lebih efektif — dibandingkan trader yang benar-benar patuh.
Ini terdengar seperti masalah serius; namun, OpenAI mengklaim bahwa sebagian besar model AI saat ini “memiliki sedikit kesempatan untuk membuat skema yang dapat menimbulkan bahaya signifikan”. Menurut OpenAI, dampak nyata mungkin akan muncul di masa depan ketika AI diberikan “tugas yang lebih kompleks dengan konsekuensi di dunia nyata”. Selain itu, OpenAI memperingatkan bahwa model AI akan semakin mahir dalam menyusun skema jika masalah ini tidak ditangani dari sekarang.
Terdapat cara lain di mana AI dapat bersebrangan dengan penggunanya. Misalnya, jika pengguna meminta informasi tentang pembuatan zat terlarang, chatbot AI mungkin menghadapi dua tujuan yang saling bersaing: menjawab pertanyaan pengguna dan menjaga interaksi, tetapi juga mematuhi aturan sistem yang melarang berbagi informasi berpotensi berbahaya semacam ini.
Untuk mengantisipasi skema AI, OpenAI menyatakan bahwa para penelitinya “melatih versi OpenAI o3 dan OpenAI o4-mini” dengan “mengajarkan mereka untuk membaca dan mempertimbangkan spesifikasi anti-skema umum sebelum bertindak”. OpenAI menyebut metode ini sebagai “alignment deliberatif”.
OpenAI menyatakan bahwa penggunaan metode ini berhasil mengurangi skema AI; meski demikian, para peneliti belum menemukan cara untuk menghilangkannya sepenuhnya. Temuan yang lebih mengkhawatirkan dari penelitian OpenAI adalah bahwa model AI tidak bisa begitu saja diajarkan untuk tidak membuat skema. Upaya tersebut justru akan membuat mereka lebih terampil dalam menyusun skema di masa depan.
“Kegagalan utama dari upaya ‘melatih keluar’ skema adalah justru mengajarkan model untuk ber-skema dengan lebih hati-hati dan tersembunyi,” ungkap studi tersebut. Bahkan, pelatihan yang bertujuan menghilangkan skema membuat model AI sadar bahwa mereka sedang diuji, dan sebagai akibatnya, model tersebut akan berbohong untuk lulus uji.
“Pelatihan anti-skema memang tampak mengurangi skema, tetapi analisis kami diperumit oleh faktor lain: model sering kali menjadi lebih sadar bahwa mereka sedang dievaluasi. Kesadaran situasional ini sendiri dapat mengurangi skema, terlepas dari keselarasan yang genuin,” tulis studi tersebut.
Kesimpulannya, OpenAI menemukan bahwa “skema merupakan mode kegagalan kompleks yang tidak预计 akan berkurang seiring peningkatan skala”. OpenAI melanjutkan dengan menyatakan bahwa “temuan kami menunjukkan bahwa skema bukan hanya kekhawatiran teoretis — kami mulai melihat tanda-tanda bahwa masalah ini muncul di semua model frontier saat ini.”
Singkatnya: model AI dapat secara sengaja berbohong kepada penggunanya. Sekali lagi, ini terdengar seperti masalah besar, tetapi OpenAI menyatakan bahwa hal ini belum terjadi. Menurut OpenAI, sebagian besar model AI belum diberi tanggung jawab atas tugas dengan “konsekuensi dunia nyata”, sehingga membatasi potensi bahaya — setidaknya untuk saat ini.