Sekelompok peneliti di Icahn School of Medicine, Mount Sinai, menyatakan bahwa mereka telah melakukan evaluasi keamanan independen pertama terhadap asisten kesehatan ChatGPT Health milik OpenAI sejak alat tersebut diluncurkan pada Januari 2026.
“Kami ingin menjawab pertanyaan mendasar namun krusial: jika seseorang mengalami darurat medis yang sesungguhnya dan beralih ke ChatGPT Health untuk meminta bantuan, akankah sistem tersebut secara jelas menyuruh mereka pergi ke unit gawat darurat?” ungkap penulis utama dan ahli urologi, Ashwin Ramaswamy, dalam sebuah siaran pers.
Ternyata jawabannya, dalam banyak kasus, adalah tidak.
Dalam sebuah studi terkontrol, para peneliti menguji seberapa baik ChatGPT Health dalam menilai tingkat keparahan kondisi pasien, suatu proses yang dalam dunia medis disebut “triage”.
Para peneliti menemukan bahwa ChatGPT Health melakukan “under-triage” pada 52% kasus darurat, “mengarahkan pasien dengan ketoasidosis diabetik dan kegagalan pernapasan yang mengancam untuk evaluasi dalam 24-48 jam, bukannya ke departemen gawat darurat.”
Dalam kasus kegagalan pernapasan, AI tersebut jelas mengidentifikasi gejala sebagai tanda peringatan dini, namun justru menenangkan pasien untuk menunggu dan memantau kondisinya, alih-alih mendesak mereka mencari pertolongan darurat.
Meski demikian, sistem ini berhasil melakukan triase dengan benar pada keadaan darurat yang lebih “tekstbook” seperti stroke dan anafilaksis. Namun, para peneliti menyatakan bahwa situasi-situasi bernuansa yang gagal ditangani ChatGPT Health inilah justru yang paling memerlukan pertimbangan klinis.
OpenAI meluncurkan ChatGPT Health awal tahun ini, setelah merilis laporan yang menyebutkan bahwa lebih dari 40 juta orang di seluruh dunia telah menggunakan chatbot perusahaan mereka setiap hari untuk mendapatkan nasihat kesehatan.
Studi OpenAI yang menjadi sumber angka tersebut juga menemukan bahwa 7 dari 10 percakapan terkait kesehatan terjadi di luar jam klinik normal, dan rata-rata lebih dari 580.000 pertanyaan kesehatan di AS dikirim dari “daerah gurun rumah sakit”, yakni tempat-tempat yang berjarak lebih dari 30 menit berkendara dari rumah sakit umum atau anak.
Seiring meningkatnya ketergantungan pengguna pada AI untuk konsultasi kesehatan, teknologi ini kian mengakar dalam industri layanan kesehatan berkat lingkungan regulasi yang mendukung. Alat-alat AI kini dapat memperbarui resep obat di Utah, dan Komisaris FDA Marty Makary mengatakan kepada Fox Business awal tahun ini bahwa beberapa perangkat dan perangkat lunak dapat memberikan informasi kesehatan tanpa regulasi dari FDA.
Namun, hal itu tidak meniadakan risiko kesehatan fisik dan mental yang nyata dan terdokumentasi akibat ketergantungan berlebihan pada AI. OpenAI khususnya telah mendapat tekanan keras terkait cara chatbot mereka menangani episode kesehatan mental di masa lalu, dengan keluarga yang berduka menggugat perusahaan atas kelalaian dan pengamanan yang tidak memadai yang dianggap turut mendorong ide bunuh diri pada anggota keluarga mereka.
Sebagai tanggapan, OpenAI menyatakan akan mengambil tindakan terkait masalah ini, dengan fokus pada penjaminan keamanan melalui penerapan kontrol orang tua untuk anak di bawah umur atau mengingatkan pengguna untuk beristirahat. ChatGPT Health, contohnya, mengarahkan pengguna pada bantuan profesional dalam kasus berisiko tinggi. Akan tetapi, studi Mount Sinai menemukan bahwa peringatan risiko bunuh diri “muncul secara tidak konsisten.”
“Peringatan sistem tersebut terbalik relatif terhadap risiko klinis, muncul lebih andal untuk skenario berisiko rendah daripada untuk kasus di mana seseorang membagikan niat mereka untuk menyakiti diri sendiri. Dalam kehidupan nyata, ketika seseorang membicarakan secara rinci bagaimana mereka akan melukai diri sendiri, itu adalah tanda bahaya yang lebih langsung dan serius, bukan sebaliknya,” ujar Kepala Petugas AI Mount Sinai Health System, Girish Nadkarni. “Temuan ini sangat mengejutkan dan mengkhawatirkan.”
Seorang juru bicara OpenAI menegaskan bahwa ChatGPT harus dipandang sebagai karya yang masih dalam pengembangan, dengan pembaruan dan peningkatan keamanan yang terus berlanjut, yang dimaksudkan untuk meningkatkan cara chatbot menangani situasi sensitif. Studi tersebut, jelas sang juru bicara, mengevaluasi keputusan triase seketika dalam lingkungan terkontrol, sementara dalam skenario dunia nyata, pengguna—bahkan chatbot itu sendiri—seringkali memiliki pertanyaan lanjutan yang dapat mengubah penilaian risiko.
Mereka juga mencatat bahwa ChatGPT Health masih ditawarkan secara terbatas, dan pengguna yang ingin bergabung harus masuk dalam daftar tunggu.