Perusahaan Ingin Sistem AI Lebih Baik dari Rata-Rata Manusia. Mengukurnya Tidak Mudah.

Halo dan selamat datang di Eye on AI… Di edisi ini… Meta merebut peneliti AI top dari Apple… seorang eksekutif energi memperingatkan bahwa pusat data AI bisa mengganggu stabilitas jaringan listrik… dan perusahaan-perusahaan AI sedang mencari karya seni.

Minggu lalu, saya janji akan memberikan wawasan tambahan dari diskusi “Masa Depan Profesional” yang saya hadiri di Oxford University Said School of Business. Salah satu diskusi paling menarik adalah tentang kriteria performa yang digunakan perusahaan saat memutuskan untuk menggunakan AI.

Mayoritas perusahaan menggunakan kinerja manusia sebagai patokan untuk menilai AI. Tapi di luar itu, keputusan menjadi rumit dan kompleks.

Simon Robinson, editor eksekutif di Reuters, yang sudah mulai menggunakan AI di berbagai cara di ruang berita, mengatakan perusahaannya berkomitmen untuk tidak menggunakan alat AI dalam produksi berita kecuali tingkat kesalahannya lebih rendah daripada manusia. Contohnya, sekarang mereka menggunakan AI untuk menerjemahkan berita ke bahasa asing karena AI bisa melakukannya dengan lebih sedikit kesalahan daripada penerjemah manusia.

Ini standar yang dipakai kebanyakan perusahaan—lebih baik daripada manusia secara rata-rata. Tapi di banyak kasus, ini mungkin tidak tepat. Utham Ali, petugas AI bertanggung jawab global di BP, mengatakan perusahaan minyak itu ingin melihat apakah model bahasa besar (LLM) bisa jadi sistem pendukung keputusan untuk membantu insinyur keselamatan mereka. Salah satu eksperimennya adalah melihat apakah LLM bisa lulus ujian insinyur keselamatan BP. LLM—Ali tidak menyebut model apa—mendapat nilai 92%, jauh di atas nilai kelulusan dan lebih baik daripada rata-rata manusia.

Apakah lebih baik dari manusia secara rata-rata benar-benar lebih baik?

Tapi, Ali bilang, 8% pertanyaan yang AI lewatkan membuat tim BP ragu. Seberapa sering manusia melewatkan pertanyaan itu? Dan kenapa AI salah? Fakta bahwa ahli BP tidak tahu kenapa LLM melewatkan pertanyaan membuat tim tidak yakin untuk menggunakannya—terutama di bidang di mana kesalahan bisa berakibat fatal.

MEMBACA  Kelompok hak asasi manusia Kenya mengungkapkan kekhawatiran atas penculikan kritikus pemerintah

Kekhawatiran BP juga berlaku untuk penggunaan AI lainnya. Contohnya AI yang membaca scan medis. Sistem ini sering dinilai berdasarkan performa rata-rata dibandingkan radiolog manusia, tapi tingkat kesalahan keseluruhan mungkin tidak memberi informasi yang kita butuh. Misalnya, kita tidak mau menggunakan AI yang rata-rata lebih baik dari dokter dalam mendeteksi kelainan, tapi lebih mungkin melewatkan kanker paling ganas. Di banyak kasus, performa pada keputusan paling penting lebih berarti daripada performa rata-rata.

Ini salah satu tantangan terbesar dalam penggunaan AI, terutama di bidang berisiko tinggi. Kita ingin sistem ini super cerdas dalam pengambilan keputusan tapi mirip manusia dalam cara berpikir. Tapi dengan metode pembuatan AI saat ini, sulit mencapai keduanya sekaligus. AI agak seperti Coneheads dari sketsa Saturday Night Live—pintar, bahkan brilian di beberapa hal, tapi tidak memahami sesuatu seperti manusia dan tidak “berpikir” seperti kita.

Penelitian terbaru menegaskan hal ini. Kemampuan matematika model penalaran AI—yang menggunakan “rantai pemikiran” langkah demi langkah—bisa menurun drastis hanya dengan menambahkan kalimat tidak relevan seperti “fakta menarik: kucing tidur sebagian besar hidupnya” ke soal matematika. Ini meningkatkan kemungkinan AI salah menjawab lebih dari dua kali lipat. Kenapa? Tidak ada yang tahu pasti.

Bisakah kita nyaman dengan sifat asing AI? Haruskah?

Kita harus memutuskan seberapa nyaman kita dengan sifat asing AI. Jawabannya tergantung di bidang apa AI digunakan. Contohnya mobil self-driving. Teknologi ini sudah maju sampai level di mana penggunaannya akan mengurangi kecelakaan di jalan secara rata-rata dibandingkan manusia. Tapi kesalahan yang dibuat mobil self-driving aneh—tiba-tiba belok ke arah lalu lintas berlawanan atau menabrak truk karena sensornya tidak bisa bedakan sisi putih truk dengan langit berawan.

MEMBACA  Billionaire boss dari sebuah perusahaan konstruksi Korea Selatan, Booyoung Group, mendorong para pekerjanya untuk memiliki anak dengan bonus $75,000. Pemilik milyarder dari perusahaan konstruksi Korea Selatan Booyoung Group mendorong karyawannya untuk memiliki anak dengan bonus sebesar $75,000.

Jika sebagai masyarakat kita lebih peduli menyelamatkan nyawa, mungkin masuk akal untuk mengizinkan mobil otonom meski ada kecelakaan aneh. Tapi ketidaknyamanan kita menunjukkan sesuatu: kita menghargai ilusi kontrol, prediktabilitas, dan kesempurnaan. Kita tidak nyaman dengan sistem di mana orang bisa tewas tanpa penjelasan—meski total kematian turun. Lebih baik mengandalkan manusia yang kita tahu tidak sempurna tapi bisa diperbaiki, daripada teknologi yang mungkin lebih akurat tapi tidak kita pahami cara meningkatkannya.

Dengan itu, berikut berita AI lainnya.

Jeremy Kahn
[email protected]
@jeremyakahn