Terkadang kita ingin melakukan transkripsi suatu hal, tetapi tidak ingin hasilnya terpampang di internet dan bisa dilihat oleh sembarang peretas. Mungkin itu adalah percakapan dengan dokter atau pengacara Anda. Mungkin Anda seorang jurnalis yang sedang mengelola wawancara sensitif. Privasi dan kontrol merupakan hal yang penting.
Keinginan akan privasi tersebut adalah salah satu alasan pengembang asal Prancis, Mistral AI, membangun model transkripsi terbarunya agar cukup kecil untuk berjalan di perangkat. Model ini dapat beroperasi di ponsel, laptop, atau di cloud.
Voxtral Mini Transcribe 2, salah satu model baru yang diumumkan Rabu lalu, digambarkan sebagai “sangat, sangat kecil” oleh Pierre Stock, Wakil Presiden Operasi Sains Mistral. Model baru lainnya, Voxtral Realtime, dapat melakukan hal serupa namun secara langsung, seperti teks berjalan untuk tunarungu.
Privasi bukanlah satu-satunya alasan perusahaan ingin membangun model *open-source* yang kecil. Dengan berjalan langsung di perangkat yang Anda gunakan, model ini dapat bekerja lebih cepat. Tidak perlu lagi menunggu file dikirim melalui internet ke pusat data dan kembali.
“Yang Anda inginkan adalah transkripsi terjadi sangat, sangat dekat dengan Anda,” kata Stock. “Dan tempat terdekat yang kami temukan adalah *edge device* mana pun, seperti laptop, ponsel, atau *wearable* semacam jam pintar.”
Latensi rendah (baca: kecepatan tinggi) sangat penting untuk transkripsi real-time. Model Voxtral Realtime dapat menghasilkan transkrip dengan latensi kurang dari 200 milidetik, ujar Stock. Ia dapat menyalin kata-kata pembicara hampir secepat Anda membacanya. Teks berjalan tidak lagi tertunda dua atau tiga detik.
Tantangan dalam membangun model AI yang kecil dan cepat adalah mereka juga harus akurat, jelas Stock. Perusahaan memamerkan kinerja model tersebut dalam *benchmark* yang menunjukkan tingkat kesalahan yang lebih rendah dibandingkan pesaing.
“Tidak cukup hanya mengatakan, ‘OK, saya akan membuat model kecil’,” kata Stock. “Yang Anda butuhkan adalah model kecil dengan kualitas setara model yang lebih besar, bukan?”
Model Voxtral Realtime tersedia melalui API Mistral dan di Hugging Face, bersama *demo* untuk mencobanya.
Dalam pengujian singkat, model ini menghasilkan transkrip cukup cepat (walau tidak secepat jika berjalan di perangkat) dan berhasil menangkap ucapan saya dengan akurat dalam bahasa Inggris yang tercampur sedikit Spanyol. Saat ini model mampu menangani 13 bahasa.
Voxtral Mini Transcribe 2 juga tersedia via API perusahaan, atau dapat dicoba di Mistral AI Studio. Saya menggunakan model ini untuk mentranskrip wawancara dengan Stock.
Model ini cepat dan cukup andal, meski sempat kesulitan dengan nama proper seperti Mistral AI (yang disebutnya “Mr. Lay Eye”) dan Voxtral (“VoxTroll”). Ya, model AI-nya keliru menyebut namanya sendiri. Namun Stock mengatakan pengguna dapat menyesuaikan model untuk lebih memahami kata, nama, dan istilah tertentu jika digunakan untuk tugas spesifik.