Mistral AI telah meluncurkan serangkaian model kecerdasan buatan baru yang diklaim akan membuka jalan bagi percakapan lancar antar penutur bahasa berbeda.
Pada Rabu lalu, lab AI yang berbasis di Paris itu merilis dua model *speech-to-text* baru: Voxtral Mini Transcribe V2 dan Voxtral Realtime. Yang pertama dirancang untuk mentranskrip berkas audio dalam jumlah besar, sementara yang kedua untuk transkripsi hampir real-time dalam 200 milidetik; keduanya mampu menerjemahkan hingga 13 bahasa. Voxtral Realtime tersedia gratis di bawah lisensi sumber terbuka.
Dengan 4 miliar parameter, model ini cukup ringan untuk dijalankan secara lokal pada ponsel atau laptop—sebuah terobosan pertama di bidang *speech-to-text* klaim Mistral—artinya percakapan privat tidak perlu dikirim ke *cloud*. Menurut Mistral, model baru ini lebih murah dioperasikan dan lebih minim kesalahan dibandingkan pesaingnya.
Mistral menyebut Voxtral Realtime—meski model ini menghasilkan teks, bukan ucapan—sebagai langkah signifikan menuju percakapan bebas hambatan bahasa, suatu masalah yang juga diperebutkan oleh Apple dan Google. Model terbaru Google mampu menerjemahkan dengan jeda dua detik.
“Yang kami bangun adalah sistem untuk menerjemahkan secara mulus. Model ini pada dasarnya meletakkan fondasinya,” klaim Pierre Stock, Wakil Presiden Operasi Sains di Mistral, dalam sebuah wawancara dengan WIRED. “Saya percaya masalah ini akan terselesaikan pada 2026.”
Didirikan tahun 2023 oleh alumni Meta dan Google DeepMind, Mistral adalah salah satu dari sedikit perusahaan Eropa yang mengembangkan model AI fondasional yang kemampuannya dapat mendekati pemimpin pasar Amerika—OpenAI, Anthropic, dan Google.
Tanpa akses ke tingkat pendanaan dan komputasi yang setara, Mistral berfokus pada peningkatan kinerja melalui desain model yang imajinatif dan optimasi cermat terhadap *dataset* pelatihan. Tujuannya adalah agar peningkatan mikro di semua aspek pengembangan model menghasilkan keuntungan kinerja yang material. “Jujur, terlalu banyak GPU membuatmu malas,” tutur Stock. “Kamu hanya menguji banyak hal secara membabi buta, tanpa memikirkan jalur terpendek menuju kesuksesan.”
Model bahasa besar (*large language model/LLM*) andalan Mistral tidak menyamai model pesaing dari kompetitor AS dalam hal kemampuan mentah. Namun, perusahaan ini telah membuka ceruk pasar dengan menawarkan kompromi antara harga dan kinerja. “Mistral menawarkan alternatif yang lebih efisien secara biaya, dengan model yang tidak sebesar milik pesaing, tetapi cukup baik, dan dapat dibagikan secara terbuka,” kata Annabelle Gawer, Direktur Pusat Ekonomi Digital di Universitas Surrey. “Mungkin bukan mobil Formula Satu, tapi ini mobil keluarga yang sangat efisien.”
Sementara itu, sementara rekan-rekan Amerikanya mengucurkan ratusan miliar dolar dalam perlombaan menuju kecerdasan umum buatan (*AGI*), Mistral membangun portofolio model spesialis—meski kurang menarik—yang dirancang untuk tugas-tugas sempit, seperti mengonversi ucapan menjadi teks.
“Mistral tidak memposisikan diri sebagai pemain ceruk, tetapi mereka jelas menciptakan model-model khusus,” ujar Gawer. “Sebagai pemain AS dengan sumber daya melimpah, Anda ingin memiliki teknologi serba guna yang sangat kuat. Anda tidak ingin menghabiskan sumber daya untuk menyempurnakannya sesuai bahasa dan kekhususan sektor atau geografi tertentu. Anda meninggalkan bisnis yang kurang menguntungkan ini, sehingga membuka ruang bagi pemain menengah.”
Seiring hubungan AS dan sekutu Eropanya menunjukkan tanda-tanda keretakan, Mistral juga semakin mengedepankan akar Eropanya. “Ada tren di Eropa di mana perusahaan dan terutama pemerintah sangat memperhatikan ketergantungan mereka pada perangkat lunak dan firma AI dari AS,” kata Dan Bieler, Analis Utama di firma konsultan IT PAC.
Dalam konteks itu, Mistral memposisikan diri sebagai opsi paling aman: alternatif sumber terbuka, multibahasa, dan asli Eropa untuk model *proprietary* yang dikembangkan di AS. “Pertanyaan mereka selalu adalah: Bagaimana membangun posisi yang dapat dipertahankan di pasar yang didominasi oleh aktor Amerika yang didanai sangat besar?” kata Raphaëlle D’Ornano, pendiri firma penasihat teknologi D’Ornano + Co. “Pendekatan Mistral sejauh ini adalah ingin menjadi alternatif yang berdaulat, sesuai dengan semua regulasi yang ada di dalam Uni Eropa.”
Meski kesenjangan kinerja dengan raksasa Amerika akan tetap ada, Bieler memprediksi bahwa seiring bisnis berusaha menemukan *return on investment* dari AI dan mempertimbangkan konteks geopolitik, model-model lebih kecil yang disesuaikan dengan kebutuhan spesifik industri dan region akan mendapat gilirannya.
“LLM adalah raksasa yang mendominasi diskusi, tetapi saya tidak yakin situasi ini akan berlangsung selamanya,” pungkas Bieler. “Model yang lebih kecil dan berfokus regional akan memainkan peran jauh lebih besar ke depannya.”