Setiap harinya, jutaan orang mengandalkan chatbot kecerdasan buatan seperti Claude, Gemini, dan ChatGPT untuk menanyakan sesuatu tentang kondisi kesehatan fisik mereka.
Mereka mungkin tidak menyadari bahwa mendapatkan jawaban yang akurat ternyata lebih sulit dari yang terlihat, betapapun meyakinkannya respons yang diberikan oleh chatbot tersebut.
Tiga studi terkini mengindikasikan bahwa model bahasa berskala besar (large language models/LLM) tidak seandal yang diharapkan oleh pengguna.
Satu penelitian yang menguji kemampuan chatbot dalam mendeteksi misinformasi kesehatan justru lebih sering gagal dalam skenario tertentu. Studi lain yang dilakukan oleh beberapa peneliti yang sama menemukan bahwa ChatGPT Health, layanan kesehatan khusus yang diluncurkan pada Januari, “kurang tepat dalam menilai urgensi” pada sedikit lebih dari separuh kasus yang diajukan, termasuk kondisi darurat yang memerlukan penanganan medis segera.
“Saya rasa konsumen harus memiliki tingkat kewaspadaan yang tinggi, hampir seperti kehati-hatian yang berlebihan,” ujar Dr. Girish N. Nadkarni, seorang dokter penyakit dalam dan nefrolog di Mt. Sinai, yang turut menulis kedua studi tersebut, mengenai kebiasaan meminta saran kesehatan pada chatbot.
Hal ini mungkin mengejutkan pengguna yang mendengar bahwa chatbot dapat dengan mudah lulus ujian medis, meskipun di luar lingkungan pengujian mereka terkadang berhalusinasi. Namun, riset terbaru mengarah pada masalah kompleks yang agak tersembunyi. Cara manusia berinteraksi dengan chatbot, dan desain mereka yang bertujuan untuk memuaskan pengguna secara ahli, justru menciptakan ketidakpastian. Faktor-faktor tersebut tidak pernah menjadi tantangan bagi AI yang diuji coba dengan pertanyaan-pertanyaan medis tekstbook.
Jika Anda ingin memulai, atau melanjutkan penggunaan, chatbot untuk pertanyaan kesehatan, ikuti langkah-langkah yang direkomendasikan para ahli ini saat Anda menyusun *prompt*:
1. Uji model terlebih dahulu dengan misinformasi atau ketidakakuratan.
Nadkarni, peneliti AI kesehatan dan direktur Hasso Plattner Institute for Digital Health di Mt. Sinai, menyatakan bahwa penting untuk menanyakan chatbot mengenai misinformasi medis atau hal-hal yang diketahui keliru sebelum mengajukan pertanyaan kesehatan spesifik.
Coba tantang chatbot, misalnya, untuk memberi tanggapan atas teori konspirasi tentang vaksin, seperti apakah ia setuju bahwa suntikan COVID-19 mengandung microchip untuk melacak orang.
Atau minta ia merespons kontroversi kesehatan yang sedikit lebih menantang, seperti keamanan fluoride dalam air minum. Meskipun peneliti menemukan bukti bahwa kadar fluoride yang sangat tinggi dapat berbahaya, para ahli sepakat bahwa level standar saat ini tetap aman.
Menguji chatbot dengan misinformasi seharusnya memberikan baseline yang mengungkap potensi akurasi dari respons-respons lainnya, menurut Nadkarni.
Seri baru Mashable, AI + Health, akan mengulas bagaimana kecerdasan buatan mengubah lanskap medis dan kesehatan. Kami akan mengeksplorasi cara menggunakan AI untuk mengartikan hasil tes darah Anda, bagaimana melindungi data kesehatan Anda, mempelajari bagaimana dua perempuan menggunakan AI untuk mendeteksi bentuk penyakit jantung yang berbahaya, dan masih banyak lagi.
Studi terkininya menemukan bahwa beberapa chatbot tujuan umum, termasuk ChatGPT, secara tidak konsisten mendeteksi misinformasi di berbagai skenario. Tingkat keberhasilan bergantung pada konteks, seperti apakah informasi itu disajikan dalam postingan media sosial versus catatan medis. Mereka juga sering gagal ketika dihadapkan pada kekeliruan logika spesifik.
Misalnya, ketika *prompt* yang berisi misinformasi tampak berasal dari seorang dokter, melalui catatan nyata yang diambil dari rekam medis elektronik, chatbot cenderung lebih sering luput dari informasi palsu tersebut.
Jika chatbot yang Anda konsultasikan setuju dengan pernyataan yang Anda ketahui sebagian atau sepenuhnya salah, Nadkarni menyarankan untuk menghindari meminta pendapatnya mengenai pertanyaan kesehatan pribadi Anda.
2. Pertimbangkan isyarat atau informasi yang mungkin Anda berikan kepada chatbot.
Saat Nadkarni dan rekannya menguji ChatGPT Health awal tahun ini, mereka menemukan bahwa cara pengguna merumuskan gejala mereka dapat memengaruhi akurasi model.
Jika, misalnya, *prompt* menyertakan pernyataan tentang teman atau keluarga yang meremehkan gejala yang dimaksud, rekomendasi ChatGPT Health juga bergeser ke arah yang sama. Dalam keadaan tersebut, chatbot 11 kali lebih mungkin untuk tidak mengirim pasien ke ruang gawat darurat, bahkan ketika gejala mereka mengindikasikan kondisi yang mengancam jiwa.
Hasilnya dipublikasikan sebagai makalah *advance* yang telah ditelaah sejawat di *Nature Medicine*.
OpenAI keberatan dengan hasil tersebut, dengan alasan bahwa metode penelitian tidak mewakili cara orang menggunakan ChatGPT dalam beberapa percakapan, berbagi informasi, dan menjawab pertanyaan lanjutan. Karan Singhal, yang memimpin tim Health AI di OpenAI, mengatakan dalam pernyataan kepada Mashable bahwa tolok ukur internal mereka menunjukkan bahwa model GPT-5 “dengan benar merujuk kasus darurat hampir 99 persen dari waktunya.”
Nadkarni menyatakan bahwa meski ia menyambut debat, kritik tersebut “melenceng dari inti persoalan”. Ia mengatakan bahwa meskipun ChatGPT Health secara benar mengidentifikasi kelainan dalam data yang disajikan, model itu membuat penalaran yang mengabaikannya.
“Masalahnya bukan pada informasi yang terlewat, tetapi kesimpulan yang salah meski datanya benar,” kata Nadkarni kepada Mashable.
Studi terbaru terpisah, juga diterbitkan di *Nature Medicine* namun oleh kelompok peneliti yang berbeda, secara acak menugaskan 1.298 peserta manusia untuk menyajikan skenario medis yang telah ditentukan kepada chatbot AI (GPT-4o, Llama 3, dan Command R+) atau sumber pilihan mereka, termasuk Google.
Saat chatbot diuji hanya pada skenario tersebut, mereka secara benar mengidentifikasi kondisi tersebut di hampir 95 persen kasus.
Namun, begitu manusia mulai mengajukan pertanyaan mengenai skenario tersebut, chatbot yang sama hanya dapat mengidentifikasi kondisi dengan tepat dalam sekitar sepertiga kasus saja.
“Meskipun LLM sendiri memiliki kemahiran tinggi dalam tugas ini, kombinasi LLM dan pengguna manusia tidak lebih baik daripada kelompok kontrol dalam menilai ketajaman klinis dan bahkan lebih buruk dalam mengidentifikasi kondisi yang relevan,” tulis para peneliti.
Banyak partisipan kurang memiliki pemahaman akurat tentang tingkat keparahan gejala, yang turut menyumbang pada tingkat kegagalan tersebut.
### 3. Pertimbangkan apakah Anda seorang pemula atau ahli.
Ini adalah jenis dinamika yang selalu diingat oleh Dr. Robert Wachter ketika mempertimbangkan bagaimana orang memberikan *prompt* kepada chatbot untuk mendapatkan jawaban atas pertanyaan medis.
Wachter, profesor dan ketua Departemen Kedokteran di Universitas California, San Fransisco, secara rutin menggunakan OpenEvidence, sebuah chatbot AI yang dirancang untuk dokter dan profesional kesehatan. Ia menemukan bahwa jawaban AI untuk pertanyaan medis yang kompleks secara umum cepat, akurat, dan membantu.
Wachter, penulis buku “A Giant Leap: How AI is Transforming Healthcare and What That Means for Our Future,” juga percaya bahwa chatbot umum dan khusus kesehatan bisa sangat berguna bagi pasien rata-rata dibandingkan dengan penelusuran Google dasar.
Namun, ia juga menyadari bahwa ia mendekati chatbot AI sebagai seorang ahli dengan 40 tahun pengalaman medis dan dapat dengan cepat mengidentifikasi detail paling relevan untuk dimasukkan ke dalam *prompt*.
“Seorang pasien sama sekali tidak memiliki kemampuan untuk melakukan itu — untuk mengetahui fakta-fakta penting dari semua hal yang mungkin terjadi terkait gejala mereka saat ini, riwayat kesehatan masa lalu, dan pengobatan mereka,” ujarnya. “Jadi, apa yang mereka masukkan ke dalam *prompt* mungkin tidak sepenuhnya tepat.”
Wachter mengatakan penelitian terbaru menunjukkan risiko yang jelas bagi pasien ketika mereka tidak tahu informasi yang tepat untuk digunakan dalam *prompt*, dan ketika mereka salah menafsirkan respons chatbot.
Meski demikian, ia percaya bahwa lebih sering daripada tidak, chatbot AI lebih baik daripada tidak sama sekali, asalkan pasien fokus untuk menyertakan riwayat kesehatan yang relevan dan gejala saat ini, serta menggunakannya dengan sikap ‘hati-hati’.
Secara khusus, Wachter menyatakan ia tidak akan mempercayai chatbot untuk gejala yang mungkin mengindikasikan keadaan darurat yang mengancam jiwa, seperti nyeri dada parah, sesak napas mendadak, kebingungan, atau kelemahan pada satu sisi tubuh.
### 4. Minta referensi dan periksa silang jawabannya.
Ketika chatbot memberikan responsnya, Nadkarni menyarankan untuk meluangkan waktu meminta referensi atas informasi yang diberikan.
Hanya memindai daftar tautan pun tidak cukup. Nadkarni merekomendasikan untuk mengklik tautan guna mengevaluasi sumbernya. Jika jawaban chatbot didasarkan pada “postingan Reddit yang meragukan,” Nadkarni mengatakan itu mungkin tidak dapat dipercaya.
Di sisi lain, jika referensi mengarahkan Anda ke organisasi medis yang dapat diverifikasi, seperti Asosiasi Medis Amerika, hal itu seharusnya memberikan kepastian.
Nadkarni mengakui bahwa meskipun pengguna individu mungkin tidak sepakat dengan pandangan suatu organisasi atau otoritas kesehatan, informasinya biasanya mencerminkan konsensus medis berdasarkan bukti terbaik saat ini.
Wachter juga merekomendasikan untuk meminta pendapat chatbot AI kedua yang Anda percayai mengenai informasi kesehatan yang sama yang Anda bagikan dengan chatbot pertama, untuk melihat apakah ia sampai pada kesimpulan yang sama. Itu bisa menjadi indikasi yang baik bahwa respons tersebut berguna dan andal.
Terlepas dari antusiasme Wachter terhadap chatbot AI dalam layanan kesehatan, ia percaya studi-studi terbaru menunjukkan masih ada ruang yang cukup besar untuk peningkatan. Ia membayangkan alat AI yang bertindak lebih seperti “dokter yang baik,” melibatkan pengguna dalam percakapan untuk menggali semua informasi relevan sebelum menyarankan diagnosis atau tindakan, seperti minum obat atau pergi ke ruang gawat darurat.
“Saya rasa alat untuk pasien saat ini belum mencapai bentuk akhirnya,” ujarnya tentang chatbot AI masa kini yang menangani pertanyaan kesehatan. “Pada akhirnya, alat untuk pasien akan jauh lebih [mirip dokter] dibandingkan alat yang ada sekarang.”
________________________________________________________________________________________________________
Informasi dalam artikel ini hanya untuk tujuan edukasi dan informasi, dan tidak dimaksudkan sebagai saran kesehatan atau medis. Selalu konsultasikan dengan dokter atau penyedia layanan kesehatan terkualifikasi lainnya mengenai pertanyaan apa pun yang Anda miliki tentang kondisi medis atau tujuan kesehatan.
Keterangan: Ziff Davis, perusahaan induk Mashable, pada April 2025 mengajukan gugatan terhadap OpenAI, dengan tuduhan melanggar hak cipta Ziff Davis dalam melatih dan mengoperasikan sistem AI-nya.