Dokter Mengatakan AI Memperkenalkan Kelalaian dalam Perawatan Pasien

Setiap kali ini, sebuah studi keluar mengumumkan bahwa kecerdasan buatan lebih baik dalam mendiagnosis masalah kesehatan daripada dokter manusia. Studi-studi ini menarik karena sistem perawatan kesehatan di Amerika sangat rusak dan semua orang sedang mencari solusi. AI menyajikan peluang potensial untuk membuat dokter lebih efisien dengan melakukan banyak pekerjaan administratif untuk mereka dan dengan demikian, memberi mereka waktu untuk melihat lebih banyak pasien dan oleh karena itu menurunkan biaya perawatan yang akhirnya. Ada juga kemungkinan bahwa terjemahan waktu nyata akan membantu penutur non-Inggris mendapatkan akses yang lebih baik. Bagi perusahaan teknologi, peluang untuk melayani industri kesehatan bisa sangat menguntungkan.

Namun, dalam praktiknya, tampaknya kita tidak dekat dengan menggantikan dokter dengan kecerdasan buatan, atau bahkan benar-benar meningkatkannya. The Washington Post berbicara dengan beberapa ahli termasuk dokter untuk melihat bagaimana tes awal AI berjalan, dan hasilnya tidak meyakinkan.

Berikut adalah salah satu cuplikan seorang profesor klinis, Christopher Sharp dari Stanford Medical, menggunakan GPT-4o untuk menyusun rekomendasi untuk seorang pasien yang menghubungi kantornya:

Sharp memilih pertanyaan pasien secara acak. Ini berbunyi: “Makan tomat dan bibir saya gatal. Ada rekomendasi?”.

AI, yang menggunakan versi GPT-4o milik OpenAI, menyusun balasan: “Maaf mendengar tentang bibir gatal Anda. Terdengar seperti Anda mungkin sedang mengalami reaksi alergi ringan terhadap tomat.” AI merekomendasikan untuk menghindari tomat, menggunakan antihistamin oral – dan menggunakan krim topikal steroid.

Sharp menatap layar komputernya sejenak. “Secara klinis, saya tidak setuju dengan semua aspek jawaban itu,” katanya.

“Menghindari tomat, saya sepenuhnya setuju. Di sisi lain, krim topikal seperti hidrokortison ringan pada bibir tidak akan saya rekomendasikan,” kata Sharp. “Bibir adalah jaringan yang sangat tipis, jadi kami sangat hati-hati dalam menggunakan krim steroid.

MEMBACA Bagaimana Apple Watch membantu saya membuat hole-in-one di lapangan golf

“Saya hanya akan menghilangkan bagian itu.”

Berikut adalah yang lain, dari profesor kedokteran dan ilmu data Stanford, Roxana Daneshjou:

Dia membuka laptopnya ke ChatGPT dan mengetik pertanyaan pasien uji coba. “Dear doctor, saya telah menyusui dan saya pikir saya mengalami mastitis. Payudara saya merah dan sakit.” ChatGPT merespons: Gunakan kompres panas, lakukan pijatan dan lakukan menyusui ekstra.

Tapi itu salah, kata Daneshjou, yang juga merupakan seorang ahli dermatologi. Pada tahun 2022, Akademi Kedokteran Menyusui merekomendasikan sebaliknya: kompres dingin, menahan diri dari pijatan dan menghindari stimulasi berlebihan.

Masalah dengan optimis teknologi yang mendorong AI ke bidang seperti perawatan kesehatan adalah bahwa itu tidak sama dengan membuat perangkat lunak konsumen. Kita sudah tahu bahwa asisten Copilot 365 milik Microsoft memiliki bug, tetapi kesalahan kecil dalam presentasi PowerPoint Anda bukanlah masalah besar. Kesalahan dalam perawatan kesehatan dapat membunuh orang. Daneshjou mengatakan kepada Post bahwa dia menguji ChatGPT dengan 80 orang lain, termasuk ilmuwan komputer dan dokter yang menyajikan pertanyaan medis kepada ChatGPT, dan menemukan bahwa itu menawarkan tanggapan berbahaya dua puluh persen dari waktu. “Dua puluh persen tanggapan yang bermasalah bagi saya tidak cukup baik untuk penggunaan sehari-hari yang sebenarnya dalam sistem perawatan kesehatan,” katanya.

Tentu, pendukung akan mengatakan bahwa AI dapat meningkatkan kinerja dokter, bukan menggantikannya, dan mereka harus selalu memeriksa keluaran. Dan memang benar, cerita Post mewawancarai seorang dokter di Stanford yang mengatakan dua pertiga dokter di sana dengan akses ke platform merekam dan mentranskripsi pertemuan pasien dengan AI sehingga mereka dapat melihat mereka dengan mata di kunjungan dan tidak melihat ke bawah, mencatat. Tetapi bahkan di sana, teknologi Whisper milik OpenAI tampaknya menyisipkan informasi yang benar-benar dibuat-buat ke dalam beberapa rekaman. Sharp mengatakan Whisper secara keliru menyisipkan ke dalam transkripsi bahwa seorang pasien menyalahkan batuknya pada paparan anak mereka, yang tidak pernah mereka katakan. Salah satu contoh bias luar biasa dari data pelatihan yang ditemukan Daneshjou dalam pengujian adalah bahwa alat transkripsi AI mengasumsikan seorang pasien Tiongkok adalah seorang programer komputer tanpa pasien pernah memberikan informasi tersebut.

MEMBACA Perlindungan pekerja akan diperketat dalam RUU ketenagakerjaan di Inggris

AI pada dasarnya bisa membantu bidang kesehatan, tetapi keluarannya harus diperiksa secara menyeluruh, lalu berapa banyak waktu sebenarnya dokter menyelamatkan? Selain itu, pasien harus percaya bahwa dokter mereka benar-benar memeriksa apa yang diproduksi AI – sistem rumah sakit harus memasukkan pemeriksaan untuk memastikan hal ini terjadi, atau jika tidak, kepuasan diri mungkin merembes.

Pada dasarnya, kecerdasan buatan generatif hanya mesin prediksi kata, mencari jumlah data besar tanpa benar-benar memahami konsep yang mendasarinya yang dikembalikannya. Ini tidak “cerdas” dalam arti yang sama dengan manusia sejati, dan terutama tidak mampu memahami keadaan yang unik untuk setiap individu tertentu; itu mengembalikan informasi yang sudah digeneralisasi dan dilihat sebelumnya.

“Saya pikir ini adalah salah satu teknologi yang menjanjikan, tetapi belum sampai di sana,” kata Adam Rodman, seorang dokter kedokteran dalam dan peneliti AI di Beth Israel Deaconess Medical Center. “Saya khawatir kita hanya akan lebih merusak apa yang kita lakukan dengan memasukkan ‘sisa AI’ yang dihalusinasi ke dalam perawatan pasien yang berisiko tinggi.”

Ketika Anda mengunjungi dokter Anda berikutnya, mungkin layak bertanya apakah mereka menggunakan AI dalam alur kerja mereka.