Chatbot AI terkemuka di dunia kini bisa menghasilkan segalanya, dari email sampai makalah penelitian—dalam bahasa Inggris. Tapi kalau pindah ke bahasa lain, kinerja AI mulai menurun.
Kebanyakan model bahasa besar itu “sedikit seperti mahasiswa Fulbright yang tertarik dengan Asia sebagai bidang studinya,” kata Kalika Bali, peneliti utama di Microsoft Research India, di konferensi Fortune Brainstorm AI Singapore hari Rabu. “Mereka tahu banyak tentang [topik itu], tapi tidak paham budaya. Itu seperti pandangan orang luar terhadap budaya suatu negara.”
Bali memberi contoh pertanyaan matematika klasik—”John dan Mary punya kue pie jeruk nipis yang harus dibagi jadi lima bagian”—untuk menunjukkan masalah AI yang tidak paham budaya.
Model AI biasa akan menerjemahkan pertanyaan itu langsung. Tapi seperti kata Bali, “di negara seperti India, kebanyakan orang tidak tahu apa itu pie, apalagi pie jeruk nipis.”
Agar model AI lebih paham budaya lokal, dibutuhkan lebih banyak datadalam bahasa setempat. Tapi mendapatkan data itu tidak selalu mudah.
Sekitar setengah konten web ada dalam bahasa Inggris, jadi tidak sulit bagi LLM untuk belajar bahasa Inggris. Untuk bahasa lain yang tidak punya banyak konten, pengembang harus cari cara lain untuk dapatkan data latihan.
Kasima Tharnpipitchai, kepala strategi AI di SCB 10X, menekankan pentingnya kerja keras penutur asli untuk membangun dataset.
Tharnpipitchai memimpin proyek SCB 10X untuk meluncurkan LLM Thailand bernama Typhoon. Untuk buat dataset dalam bahasa Thai, penutur asli harus menyaring data besar secara manual, memilih mana sumber yang berkualitas dan yang tidak.
“Tidak ada trik khusus, kita harus kerja keras,” katanya. “Benar-benar butuh usaha. Hampir seperti kerja paksa.”
SCB 10X meluncurkan Typhoon satu setengah tahun lalu. Tharnpipitchai bilang Typhoon bisa lebih baik dari GPT-3.5 dalam bahasa Thai, yang menurutnya “lebih menunjukkan betapa buruknya GPT-3.5 dalam bahasa Thai” daripada kehebatan kerja mereka.
Tapi mengumpulkan data web non-Inggris mulai menimbulkan masalah hukum.
Khalil Nooh, pendiri dan CEO startup Malaysia Mesolitica yang sedang kembangkan LLM bahasa Melayu, bilang beberapa pemilik data minta sumber mereka dihapus dari dataset, yang tersedia online karena model mereka open-source.
Ini membuat kumpulan data berkualitas dalam bahasa Melayu semakin sedikit. Solusinya, “tantangan kami adalah bekerja dengan pemilik dataset pribadi,” kata Nooh.
Baik Nooh maupun Bali sedang coba buat data sintetis untuk dapatkan lebih banyak data berkualitas dalam bahasa target. Mesin bisa terjemahkan konten Inggris yang banyak ke bahasa lain untuk tambah dataset yang terbatas. Ini sangat berguna untuk LLM yang bekerja dengan dialek regional yang hampir tidak ada di dunia digital.
“Cara kami menangkap semua 16 dialek di Malaysia adalah melalui data sintetis,” ujar Nooh.
Tapi ada rintangan yang tidak bisa diatasi dengan “kerja paksa” atau generasi mesin. Di banyak komunitas, peneliti harus seimbangkan pengumpulan data dengan sensitivitas budaya saat mengumpulkan data dalam bahasa lokal.
Walaupun “secara umum, India sangat mendukung teknologi,” kata Bali, “ada hal-hal yang tidak bisa ditanyakan” saat mengumpulkan data di lapangan. Komunitas lokal mungkin tidak mau berbagi informasi tentang topik tertentu, meskipun itu umum diketahui di daerah tersebut.
Nooh menambahkan bahwa di Malaysia, tiga R—”ras, agama, dan raja”—adalah topik yang sensitif.
Meskipun belum ada aturan tentang apa yang bisa LLM “katakan” di Malaysia, Nooh bilang Mesolitica sudah “mempersiapkan komponen yang diperlukan jika suatu saat dibutuhkan.”
Untuk mengatasi sensitivitas budaya di Thailand, Tharnpipitchai menjelaskan bahwa SCB 10X merilis “model keamanan” untuk sektor publik, selain model Typhoon biasa.