Secara historis, sebagian besar uji klinis dan penelitian ilmiah terfokus terutama pada pria kulit putih sebagai subjek, mengakibatkan keterwakilan perempuan dan orang-orang dari kelompok etnis minoritas yang sangat rendah dalam penelitian medis. Dan coba tebak apa konsekuensinya ketika data semacam itu dimasukkan ke dalam model AI. Ternyata, sebagaimana diungkap Financial Times dalam laporan terbarunya, alat-alat AI yang digunakan oleh dokter dan tenaga medis justru menghasilkan luaran kesehatan yang lebih buruk bagi kelompok yang secara historis terabaikan.
Laporan tersebut merujuk pada sebuah makalah dari peneliti MIT yang menemukan bahwa model bahasa besar (LLM) seperti GPT-4 OpenAI dan Llama 3 Meta “lebih cenderung secara keliru mengurangi perawatan untuk pasien perempuan,” serta lebih sering menyuruh perempuan “menangani sendiri di rumah,” sehingga akhirnya menerima lebih sedikit perawatan di klinik. Ini jelas buruk, meski bisa saja dikatakan bahwa model tersebut bersifat umum dan tidak dirancang khusus untuk medis. Sayangnya, LLM khusus kesehatan seperti Palmyra-Med juga diteliti dan menunjukkan bias serupa. Tinjauan terhadap model Gemma milik Google oleh London School of Economics juga menemukan bahwa model tersebut cenderung “meremehkan kebutuhan perempuan” dibandingkan laki-laki.
Sebuah studi sebelumnya mengungkap bahwa model AI juga bermasalah dalam menunjukkan tingkat empati yang sama terhadap orang kulit berwarna yang menghadapi masalah kesehatan mental dibandingkan dengan rekan kulit putihnya. Makalah yang terbit tahun lalu di The Lancet menemukan bahwa model GPT-4 OpenAI kerap “menggunakan stereotip tertentu terkait ras, etnis, dan gender,” sehingga diagnosis dan rekomendasinya lebih didasarkan pada identitas demografis daripada gejala atau kondisi. Makalah itu menyimpulkan bahwa “rencana perawatan yang dibuat model tersebut menunjukkan korelasi signifikan antara atribut demografis dengan rekomendasi prosedur yang lebih mahal, serta perbedaan dalam persepsi terhadap pasien.”
Hal ini menimbulkan masalah yang sangat serius, terlebih dengan perusahaan seperti Google, Meta, dan OpenAI yang berlomba memasarkan tool mereka ke rumah sakit dan fasilitas kesehatan. Pasar ini sangat menguntungkan—namun juga berisiko tinggi terhadap misinformasi. Awal tahun ini, model AI kesehatan Google, Med-Gemini, menjadi berita karena membuat-buat nama bagian tubuh. Kesalahan seperti itu mungkin masih mudah dikenali oleh tenaga medis. Namun, bias seringkali lebih halus dan tidak disadari. Akankah seorang dokter cukup kritis untuk mempertanyakan apakah model AI justru mengukuhkan stereotip medis yang sudah lama ada? Tidak seharusnya masyarakat sampai harus menjadi korban untuk menyadarinya.