Rumah Sakit menggunakan alat transkripsi yang didukung oleh model OpenAI yang rentan terhadap halusinasi

Beberapa bulan yang lalu, dokter saya memperlihatkan alat transkripsi AI yang digunakannya untuk merekam dan merangkum pertemuan pasien-pasien. Dalam kasus saya, ringkasannya baik, tetapi para peneliti yang dikutip oleh ABC News menemukan bahwa tidak selalu demikian dengan Whisper dari OpenAI, yang menggerakkan alat yang banyak rumah sakit gunakan – kadang-kadang alat itu benar-benar membuat cerita-cerita palsu. Whisper digunakan oleh perusahaan bernama Nabla untuk alat transkripsi medis yang diperkirakan telah mentranskripsi 7 juta percakapan medis, menurut ABC News. Lebih dari 30.000 dokter dan 40 sistem kesehatan menggunakannya, begitu kata ABC News. Nabla dilaporkan menyadari bahwa Whisper bisa halusinasi, dan sedang “menangani masalah itu.” Sebuah kelompok peneliti dari Universitas Cornell, Universitas Washington, dan lainnya menemukan dalam sebuah studi bahwa Whisper mengalami halusinasi dalam sekitar 1 persen transkripsi, menciptakan kalimat-kalimat lengkap dengan sentimen-sentimen kadang-kadang kekerasan atau frasa-frasa nonsens selama keheningan dalam rekaman. Peneliti-peneliti ini, yang mengumpulkan sampel audio dari AphasiaBank TalkBank sebagai bagian dari studi, mencatat keheningan tersebut terutama umum ketika seseorang dengan gangguan bahasa yang disebut afasia berbicara. Salah satu peneliti, Allison Koenecke dari Universitas Cornel, memposting contoh-contoh seperti yang di bawah ini dalam sebuah utas tentang studi tersebut. Peneliti menemukan bahwa halusinasi juga termasuk kondisi medis yang diciptakan atau frasa-frasa yang mungkin Anda harapkan dari video YouTube, seperti “Terima kasih telah menonton!” (OpenAI dilaporkan pernah mentranskripsi lebih dari satu juta jam video YouTube untuk melatih GPT-4.) Studi tersebut dipresentasikan pada bulan Juni di konferensi FAccT Association for Computing Machinery di Brasil. Belum jelas apakah sudah melalui peer-review. Juru bicara OpenAI Taya Christianson mengirimkan pernyataan melalui email ke The Verge: Kami menganggap serius masalah ini dan terus bekerja untuk memperbaiki, termasuk mengurangi halusinasi. Untuk penggunaan Whisper di platform API kami, kebijakan penggunaan kami melarang penggunaannya dalam konteks pengambilan keputusan yang tinggi, dan model card kami untuk penggunaan open-source mencakup rekomendasi untuk tidak menggunakan di domain berisiko tinggi. Kami mengucapkan terima kasih kepada para peneliti yang telah berbagi temuan mereka.

MEMBACA Pendeta dan tersangka kudeta Turki yang diduga Fethullah Gülen meninggal dalam pengasingan.