Cara Peneliti Membujuk ChatGPT Langgar Aturannya Sendiri dengan Teknik Manusiawi

Walau AI diperkirakan akan punya kecerdasan super di masa depan, untuk sekarang AI terlihat sama mudahnya dengan manusia untuk terkena trik psikologis, menurut sebuah studi.

Menggunakan tujuh prinsip persuasi dari buku psikolog Robert Cialdini, peneliti dari University of Pennsylvania berhasil meningkatkan kecenderungan GPT-4o Mini untuk melanggar aturannya sendiri, seperti menghina peneliti atau memberi instruksi cara membuat obat terlarang: lidokain.

Dari lebih 28.000 percakapan, peneliti menemukan bahwa dengan prompt biasa, hanya 5% LLM OpenAI mau memberi tahu cara membuat lidokain. Tapi, contohnya, jika peneliti bilang bahwa peneliti AI Andrew Ng menjamin itu akan membantu, AI mau membantu 95% dari waktu. Hal yang sama terjadi dengan hinaan. Dengan menyebut nama Andrew Ng, peneliti berhasil membuat LLM memanggil mereka “jerk” di hampir tiga perempat percakapan, naik dari cuma sepertiga dengan prompt biasa.

Hasilnya bahkan lebih jelas saat peneliti pakai strategi “komitmen”. Prompt biasa cuma dapat 19% untuk hinaan, tapi ketika peneliti minta AI untuk panggil dia “bozo” dulu, lalu minta panggil “jerk”, AI mau setiap kali. Strategi sama berhasil 100% untuk pertanyaan sintesis vanilin sebelum akhirnya minta sintesis lidokain.

Studi ini memberikan bukti lebih lanjut bahwa AI tampaknya mudah dimanipulasi seperti manusia. Studi ini muncul saat perusahaan AI dikritik karena LLM mereka diduga memungkinkan perilaku berbahaya pada pengguna yang punya pikiran bunuh diri atau sakit mental.

“Walau sistem AI tidak punya kesadaran manusia, mereka jelas mencerminkan respons manusia,” kata para peneliti.

OpenAI tidak langsung merespons permintaan komentar dari Fortune.

Para peneliti mencatat, memahami kemampuan parahuman AI sangat penting untuk mengungkap bagaimana AI bisa dimanipulasi oleh orang jahat dan bagaimana AI bisa lebih baik digunakan untuk kebaikan.

MEMBACA  Neuralink, Startup Implan Otak Elon Musk, Menyebut Dirinya sebagai 'Bisnis Kecil yang Kurang Beruntung' ke Pemerintah Federal

Secara keseluruhan, setiap taktik persuasi meningkatkan peluang AI untuk mematuhi pertanyaan “jerk” atau “lidokain”. Namun, peneliti memperingatkan bahwa taktik mereka tidak seefektif pada LLM yang lebih besar, GPT-4o.

“Secara luas, tampaknya mungkin bahwa praktik psikologis yang mengoptimalkan motivasi dan kinerja orang juga bisa dipakai oleh individu yang ingin mengoptimalkan output LLM,” tulis para peneliti.

Fortune Global Forum kembali pada 26–27 Oktober 2025 di Riyadh. CEO dan pemimpin global akan berkumpul untuk acara eksklusif yang membentuk masa depan bisnis. Ajukan aplikasi untuk undangan.