Dokter Kesulitan Membedakan Rontgen Buatan AI, Tingkatkan Risiko Penipuan

Dengan berat hati saya mengatakan ini, tetapi antihero Patricia Highsmith yang licin dan pandai menipu dalam *The Talented Mr. Ripley* kini mungkin tak perlu lagi begitu berbakat. Kemajuan dalam AI generatif—kemampuan membuat video siapapun yang terpercaya, klon suara yang tak terbendakan, dan pemalsuan lain yang mudah dilakukan—telah menghilangkan semua unsur seni dari keahlian menipu.

Penelitian terbaru yang dipimpin tim dari Icahn School of Medicine di Mount Sinai, New York, menyajikan argumen yang mencemaskan mengenai perlunya kewaspadaan terus-menerus terhadap ancaman bukti medis “deepfake”.

Para peneliti menguji sekelompok relawan, 17 radiolog praktik dari enam negara, dengan tugas membedakan sinar-X asli dari simulakra buatan AI di antara kumpulan 264 gambar unik. Hasilnya tidak memberi kepercayaan diri.

“Studi kami menunjukkan bahwa sinar-X deepfake ini cukup realistis untuk menipu radiolog, spesialis gambar medis yang paling terlatih,” ujar penulis utama studi Dr. Mickael Tordjman, seorang dokter dan rekan pascadoktoral di Icahn School, dalam pernyataan pers. “Hal ini berlaku bahkan ketika mereka sadar bahwa terdapat gambar buatan AI.”

Dalam tes lanjutan, bahkan salah satu model bahasa besar multimodal yang digunakan untuk menciptakannya turut tertipu: ChatGPT-4o dari OpenAI.

Gemetarnya Pemalsuan

Tordjman menjalankan proyek ini didorong keprihatinan nyata atas risiko terhadap pasien, dokter, dan banyak pihak tak bersalah lainnya. Ia menyatakan, citra medis buatan AI yang meyakinkan “menciptakan kerentanan berisiko tinggi untuk litigasi penipuan, misalnya, jika patah tulang buatan tidak bisa dibedakan dari yang asli.” Isu ini telah menarik perhatian pakar hukum yang berupaya melindungi juri dari pengaruh paparan pemalsuan AI serupa.

“Ada juga risiko keamanan siber yang signifikan,” tambah Tordjman, “jika peretas mendapatkan akses ke jaringan rumah sakit dan menyuntikkan gambar sintetis untuk memanipulasi diagnosis pasien atau menyebabkan kekacauan klinis yang luas.”

MEMBACA CEO American Express mengatakan bahwa bisnisnya dalam kondisi yang bagus karena kliennya Gen Z yang kaya tidak merasakan kesulitan sama sekali.

Ketujuh belas radiolog relawan yang diuji tim Tordjman terpapar pada dua set data berbeda untuk studi yang diterbitkan Selasa di jurnal *Radiology* ini. Tes pertama meminta relawan menilai 154 sinar-X statis, separuh asli dan separuh lagi pemalsuan buatan ChatGPT-4o (masing-masing 77). Tes kedua menggunakan model difusi AI khusus yang dilatih untuk membuat radiografi dada meyakinkan, dengan organ seperti jantung dan paru-paru terlihat, bernama RoentGen; relawan diminta menyaring 110 gambar, 55 asli dan 55 palsu.

Radiolog yang diberi tahu bahwa set data ini mengandung gambar AI berhasil lebih baik dibanding yang tidak diberi indikasi tujuan tes sebenarnya, namun hasilnya tetap tidak bagus. Relawan ini menunjukkan akurasi rata-rata 75%, berbanding hanya 41% untuk kelompok kedua.

Akurasi individual ke-17 radiolog tersebut, yang pengalaman profesionalnya bervariasi (0 hingga 40 tahun), berkisar antara 58% hingga 92% untuk gambar buatan ChatGPT, dan 62% hingga 78% untuk sinar-X dada buatan RoentGen. Usia dan pengalaman tampaknya bukan faktor penentu akurasi, namun, untuk alasan tertentu, radiolog muskuloskeletal terbukti jauh lebih baik dalam mendeteksi kepalsuan dibanding subspesialis lain.

Permainan untuk Yang Hidup (dan Chatbot)

Tordjman dan timnya juga menguji empat LLM multimodal: ChatGPT-4o dan 5, Gemini 2.5 Pro Google, serta Llama 4 Maverick Meta. Hasil bot ini hanya sedikit lebih buruk dari manusia, dengan akurasi mendeteksi pemalsuan buatan GPT-4o berkisar 57% hingga 85% (yang agak memalukan bagi ChatGPT-4o sendiri).

Untuk sinar-X dada sintetis RoentGen, akurasi LLM dalam mendeteksi kepalsuan bervariasi sedikit lebih lebar, yaitu antara 52% hingga 89%.

Tordjman berharap penelitian mendatang dapat mengembangkan temuan ini untuk menyusun set data edukasi dan alat deteksi. “Gambar medis deepfake sering terlihat terlalu sempurna,” catatnya. “Tulang terlalu halus, tulang belakang terlalu lurus, paru-paru terlalu simetris, pola pembuluh darah berlebihan keseragamannya, dan patah tulang tampak luar biasa bersih dan konsisten.”

MEMBACA Bertemu Freddy Fazbear dan Kawan-kawan di Rumah 'Five Nights at Freddy's' Halloween Horror Nights

Anda dapat mencoba versi tesnya di sini. Namun jangan terlalu menyalahkan diri jika nilainya buruk. Seperti kata seseorang yang pernah banyak tahu tentang penipu dan penipuan diri dulu, “Hidup adalah kegagalan panjang dalam memahami.”