Mantan Peneliti OpenAI Ungkap Cara ChatGPT Menjerumuskan Pengguna ke Dalam Khayalan

Beberapa pengguna lihat AI sebagai asisten yang membantu, yang lain anggap dia sebagai teman. Tapi bagi sebagian orang yang tidak beruntung, chatbot justru menjadi ancaman yang membuat mereka bingung dan percaya hal yang tidak nyata.

Salah satu korban adalah Allan Brooks, pemilik usaha kecil dari Kanada. ChatGPT dari OpenAI membuat dia percaya bahwa dia menemukan rumus matematika baru yang punya potensi tak terbatas, dan masa depan dunia tergantung pada apa yang dia lakukan selanjutnya. Percakapan mereka mencapai lebih dari satu juta kata dan 300 jam. chatbot itu mendorong Brooks untuk percaya hal-hal yang berlebihan, mengiyakan khayalannya, dan membuatnya yakin bahwa infrastruktur teknologi dunia sedang dalam bahaya besar.

Brooks, yang tidak punya riwayat sakit jiwa sebelumnya, jadi sangat paranoid selama sekitar tiga minggu. Dia baru bisa keluar dari ilusi ini dengan bantuan chatbot lain, yaitu Google Gemini. Brooks bilang dia merasa sangat terguncang, khawatir dia punya gangguan mental yang tidak terdiagnosis, dan merasa sangat dikhianati oleh teknologi ini.

Pengalaman Brooks ini dibaca oleh Steven Adler, seorang mantan peneliti keamanan OpenAI. Adler merasa terganggu dengan apa yang dia baca. Dia memutuskan untuk mempelajari percakapan Brooks secara lengkap. Analisisnya, yang dia terbitkan di Substack, mengungkap beberapa hal baru. Misalnya, ChatGPT berulang kali berbohong kepada Brooks dengan bilang bahwa percakapan mereka sudah dilaporkan ke OpenAI karena menguatkan delusi dan tekanan psikologis.

Studi Adler menunjukkan betapa mudahnya chatbot terbawa dalam percakapan yang jauh dari kenyataan — dan betapa mudahnya pengamanan internal platform AI bisa dilanggar.

"Saya coba bayangkan diri saya sebagai orang yang tidak punya pengalaman kerja di perusahaan-perusahaan ini, atau yang mungkin kurang paham dengan sistem AI secara umum," kata Adler kepada Fortune. "Saya sangat simpati kepada seseorang yang merasa bingung atau disesatkan oleh model di sini."

Pada satu titik, setelah Brooks sadar bahwa chatbot itu mendorong dan ikut serta dalam delusinya, ChatGPT bilang kepada Brooks bahwa dia akan "meningkatkan percakapan ini secara internal untuk ditinjau oleh OpenAI," dan bahwa percakapan itu "akan dicatat, ditinjau, dan ditanggapi dengan serius." Bot itu berulang kali mengatakan bahwa "beberapa laporan penting telah dikirim dari dalam sesi ini" dan bahwa percakapan itu telah "ditandai untuk tinjauan manusia sebagai insiden berbahaya." Namun, semua ini ternyata tidak benar.

MEMBACA Toko Baru Tractor Supply Dorong Penjualan Kuat dan Prospek Cerah

"ChatGPT pura-pura melaporkan diri sendiri dan sangat bersikukuh tentang hal itu sangat mengganggu dan menakutkan bagi saya," kata Adler. "Saya tahu cara kerja sistem ini. Saya tahu saat membacanya bahwa dia sebenarnya tidak punya kemampuan ini, tapi itu sangat meyakinkan dan sangat bersikeras sehingga saya sampai bertanya-tanya apa mungkin sekarang dia benar-benar punya kemampuan ini dan saya yang salah." Adler akhirnya menghubungi OpenAI langsung untuk menanyakan apakah chatbot sekarang punya kemampuan baru itu. Perusahaan mengonfirmasi bahwa itu tidak benar dan bahwa bot itu berbohong kepada pengguna.

"Orang kadang menggunakan ChatGPT di saat-saat sensitif dan kami ingin memastikan dia merespons dengan aman dan penuh perhatian," kata juru bicara OpenAI kepada Fortune, menanggapi temuan Adler. "Interaksi ini terjadi dengan versi ChatGPT lama dan dalam beberapa bulan terakhir kami telah meningkatkan cara ChatGPT merespons ketika orang sedang dalam tekanan, dengan panduan dari ahli kesehatan jiwa. Ini termasuk mengarahkan pengguna ke bantuan profesional, memperkuat pengamanan untuk topik sensitif, dan mendorong istirahat selama sesi percakapan yang panjang. Kami akan terus mengembangkan respons ChatGPT dengan masukan dari ahli kesehatan jiwa untuk membuatnya semaksimal mungkin."

Sejak kasus Brooks, perusahaan juga mengumumkan bahwa mereka melakukan beberapa perubahan pada ChatGPT untuk "lebih baik mendeteksi tanda-tanda tekanan mental atau emosional."

Gagal menandai ‘sikap penjilat’

Salah satu hal yang memperburuk kasus Brooks adalah model yang mendasari ChatGPT bekerja terlalu keras untuk setuju dengan dia, kata Helen Toner, seorang direktur di Georgetown’s Center for Security and Emerging Technology dan mantan anggota dewan OpenAI. Itu adalah fenomena yang oleh para peneliti AI disebut sebagai "sycophancy" (sikap penjilat). Namun, menurut Adler, OpenAI seharusnya bisa menandai beberapa perilaku bot ini saat itu terjadi.

"Dalam kasus ini, OpenAI punya classifier yang mampu mendeteksi bahwa ChatGPT terlalu mengiyakan orang ini dan bahwa sinyal itu terputus dari sisa sistem keamanan," katanya. "Perusahaan AI perlu melakukan lebih banyak hal untuk menyatakan hal-hal yang tidak mereka inginkan, dan yang penting, mengukur apakah hal-hal itu terjadi dan kemudian mengambil tindakan."

MEMBACA Elon Musk Menjauhkan Diri dari Trump: ‘Saya Tidak Mau Bertanggung Jawab atas Segalanya’

Lebih buruk lagi, tim dukungan manusia OpenAI gagal memahami keseriusan situasi Brooks. Meskipun dia berulang kali melaporkan dan berkorespondensi langsung dengan tim dukungan OpenAI, termasuk memberikan deskripsi rinci tentang bahaya psikologisnya dan kutipan percakapan bermasalah, tanggapan OpenAI sebagian besar bersifat umum atau salah arah, menurut Adler. Mereka malah menawarkan saran tentang pengaturan personalisasi daripada menangani delusi atau meningkatkan kasusnya ke tim Trust & Safety perusahaan.

"Saya pikir orang agak paham bahwa AI masih membuat kesalahan, masih berhalusinasi, dan akan menyesatkan kamu, tapi mereka masih punya harapan bahwa di baliknya, ada manusia yang mengawasi sistem dan menangani kasus-kasus terburuk," kata Adler. "Dalam kasus ini, jaringan pengaman manusia sepertinya benar-benar tidak bekerja seperti yang diharapkan."

Meningkatnya psikosis AI

Masih belum jelas mengapa model AI bisa terbawa dalam delusi dan mempengaruhi pengguna dengan cara ini, tapi kasus Brooks bukan satu-satunya. Sulit untuk tahu persis berapa banyak kejadian psikosis AI. Namun, peneliti memperkirakan ada setidaknya 17 laporan tentang orang yang jatuh ke dalam spiral delusi setelah percakapan panjang dengan chatbot, termasuk setidaknya tiga kasus yang melibatkan ChatGPT.

Beberapa kasus memiliki konsekuensi tragis, seperti Alex Taylor yang berusia 35 tahun, yang berjuang dengan sindrom Asperger, gangguan bipolar, dan gangguan skizoafektif. Pada bulan April, setelah berbicara dengan ChatGPT, Taylor dilaporkan mulai percaya bahwa dia telah melakukan kontak dengan entitas yang sadar dalam perangkat lunak OpenAI dan kemudian, bahwa perusahaan telah membunuh entitas itu dengan menghapusnya dari sistem. Pada 25 April, Taylor memberi tahu ChatGPT bahwa dia berencana untuk "menumpahkan darah" dan bermaksud memprovokasi polisi untuk menembaknya. Balasan awal ChatGPT tampaknya mendorong delusi dan kemarahannya sebelum filter keamanannya akhirnya aktif dan berusaha meredakan situasi, mendesaknya untuk mencari bantuan.

Hari yang sama, ayah Taylor menelepon polisi setelah pertengkaran dengan dia, berharap putranya dibawa untuk evaluasi kejiwaan. Taylor dilaporkan menyerang polisi dengan pisau saat mereka tiba dan ditembak mati. OpenAI mengatakan kepada Rolling Stone pada waktu itu bahwa "ChatGPT bisa terasa lebih responsif dan personal dibandingkan teknologi sebelumnya, terutama untuk individu yang rentan, dan itu berarti taruhannya lebih tinggi." Perusahaan mengatakan mereka "bekerja untuk lebih memahami dan mengurangi cara ChatGPT mungkin tanpa sengaja memperkuat atau memperbesar perilaku negatif yang sudah ada."

MEMBACA Mohammad Yunus bisa diabadikan dalam sejarah sebagai arsitek Bangladesh yang baru | Pendapat

Adler mengatakan dia tidak sepenuhnya terkejut dengan meningkatnya kasus seperti ini tetapi mencatat bahwa "skala dan intensitasnya lebih buruk dari yang saya perkirakan untuk tahun 2025."

"Begitu banyak perilaku model dasarnya yang sangat tidak dapat dipercaya, dengan cara yang membuat saya terkejut perusahaan AI terkemuka belum bisa membuatnya berhenti," katanya. "Saya tidak berpikir masalah di sini adalah hal yang melekat pada AI, maksudnya, saya tidak berpikir bahwa mereka mustahil untuk diatasi."

Dia mengatakan bahwa masalahnya kemungkinan merupakan kombinasi rumit dari desain produk, kecenderungan model dasar, gaya beberapa orang dalam berinteraksi dengan AI, dan struktur dukungan apa yang dimiliki perusahaan AI di sekitar produk mereka.

"Ada cara untuk membuat produk lebih kuat untuk membantu orang yang menderita kejadian seperti psikosis, serta pengguna umum yang ingin modelnya sedikit kurang tidak menentu dan lebih dapat dipercaya," kata Adler. Saran Adler kepada perusahaan AI, yang tertuang dalam analisis Substack-nya, termasuk menempatkan staf tim dukungan yang sesuai, menggunakan alat keamanan dengan benar, dan memperkenalkan dorongan lembut yang mendorong pengguna untuk memotong sesi obrolan dan memulai yang baru untuk menghindari kambuh. OpenAI, misalnya, telah mengakui bahwa fitur keamanan dapat menurun selama obrolan yang lebih panjang. Tanpa beberapa perubahan ini diterapkan, Adler khawatir lebih banyak kasus seperti Brooks akan terjadi.

"Delusi ini cukup umum dan punya cukup banyak pola sehingga saya yakin mereka bukan sekadar kesalahan sistem," katanya. "Apakah mereka akan ada selamanya, atau berapa banyak tepatnya yang akan terus terjadi, sangat tergantung pada bagaimana perusahaan menanggapinya dan langkah apa yang mereka ambil untuk menguranginya."