Sintesis Suara Penuh Emosi Model AI Terbaru Ini Hampir Sanggup Menitikkan Air Mata

AI Suara Semakin Mirip Manusia, Tapi Masih Ada Kekurangan

Tidak lama berselang, generative AI hanya bisa berkomunikasi dengan pengguna lewat teks. Kini, teknologi ini semakin diberi kemampuan suara—dan kecanggihannya terus berkembang pesat.

Kamis lalu, platform suara AI ElevenLabs memperkenalkan versi 3, yang digambarkan di situs mereka sebagai "model text-to-speech paling ekspresif sejauh ini". Model terbaru ini mampu mengekspresikan berbagai emosi dan nuansa komunikasi—seperti menghela napas, tertawa, dan berbisik—sehingga suaranya terdengar lebih manusiawi dibanding versi sebelumnya.

Dalam sebuah demo yang dibagikan di X, v3 memperdengarkan suara dua karakter—satu pria dan satu wanita—yang sedang bercakap santai tentang kemampuan baru mereka berbicara dengan suara lebih alami.

Memperkenalkan Eleven v3 (alpha) – model Text to Speech paling ekspresif.
Mendukung 70+ bahasa, dialog multi-speaker, dan tag audio seperti [excited], [sighs], [laughing], dan [whispers].
Sekarang dalam public alpha dengan diskon 80% hingga Juni.
pic.twitter.com/n56BersdUc

Suaranya memang tidak datar seperti Alexa, tapi v3 cenderung terlalu ekspresif—hingga tawanya kadang terasa aneh ketimbang menyenangkan. Coba dengarkan sendiri.

Model ini juga bisa berbicara lebih dari 70 bahasa—naik signifikan dari v2 yang hanya 29. Versi alpha sudah tersedia untuk umum dengan potongan harga 80% hingga akhir bulan ini.

Masa Depan Interaksi AI

Suara buatan AI kini menjadi fokus inovasi dalam perkembangan interaksi manusia-mesin. Asisten otomatis macam Siri dan Alexa memang sudah lama bisa bicara, tapi suaranya masih sangat mekanis dengan ragam emosi terbatas. Mereka berguna untuk tugas sederhana, tapi tidak jadi teman bicara yang baik.

Sebaliknya, beberapa alat text-to-speech (TTS) terbaru dirancang agar suaranya terdengar realistis dan menarik. Misalnya, pengguna bisa memodifikasi suara v3 dengan "tag audio"—seperti [excited], [loudly], atau [angry]—yang langsung dimasukkan ke teks perintah.

ElevenLabs bukan satu-satunya yang berusaha menciptakan model TTS lebih hidup. Perusahaan besar juga menjualnya sebagai cara lebih intuitif berinteraksi dengan AI. Akhir Mei lalu, saingannya, Hume AI, meluncurkan Empathic Voice Interface (EVI) 3, yang memungkinkan pengguna membuat suara kustom hanya dengan deskripsi bahasa alami. Kemampuan serupa juga ditawarkan Google Gemini 2.5 Pro Flash.

Butuh cerita lain soal AI? Daftar newsletter Innovation kami.

MEMBACA  Bagaimana Cara Menilai Tabungan Sarang Anda? Ini Dia yang Dibutuhkan Untuk Masuk ke 10% Teratas Penyimpan Dana Pensiun