Saya Menguji 3 Model AI Text-to-Speech untuk Menemukan yang Terbaik — Simak Hasilnya

Ringkasan Utama ZDNET oleh Elyse Betters Picaro
Sekarang tersedia banyak alat AI yang dapat menghasilkan suara seperti manusia. Beberapa suara AI bahkan bisa berbisik, tertawa, dan melakukan ekspresi lainnya. Alat TTS (text-to-speech) bervariasi dalam hal tingkat realisme dan audiens yang dituju.


Suara sintetis yang dibuat oleh kecerdasan buatan sekarang sudah menjadi hal biasa, baik itu positif maupun negatif. Sementara itu, jumlah perusahaan yang mengembangkan teknologi ini terus bertambah pesat.

Inovasi terbaru dalam AI, seperti arsitektur transformer—yang menjadi dasar banyak alat generatif AI termasuk model bahasa besar (LLM), generative adversarial networks (GANs), dan diffusion models—telah memunculkan sistem AI yang bisa mengubah teks menjadi suara buatan yang terdengar alami. Saat ini, ada berbagai macam sistem TTS dengan kelebihan dan kekurangan masing-masing.

Untuk mengetahui mana yang paling canggih, saya mencoba tiga alat TTS gratis terpopuler di pasaran saat ini.

ElevenLabs

ElevenLabs dianggap sebagai pemimpin dalam hal realisme suara, dan pengujian saya membenarkan hal tersebut. Namun, realisme itu lebih cocok untuk suara aktor atau podcaster profesional daripada percakapan sehari-hari—terlalu sempurna. Namun, bagi bisnis dan profesional yang mencari narasi otomatis yang andal, ini pilihan tepat. ElevenLabs mendukung lebih dari 20 bahasa, memperluas jangkauannya.

Bulan lalu, ElevenLabs merilis model TTS baru bernama v3 sebagai pratinjau riset. Model ini mendukung lebih dari 70 bahasa dan memungkinkan pengguna menambahkan ekspresi seperti tawa, desahan, atau bisikan ke dalam dialog AI.

Anda bisa mendaftar akun gratis di ElevenLabs dan langsung dapatkan 10.000 kredit gratis. Pilih opsi "Text to Speech" di menu "Playground", lalu masukkan teks yang ingin diubah menjadi suara, pilih karakter suara, dan atur parameter seperti kecepatan. Setiap karakter dalam prompt menggunakan 1 kredit.

MEMBACA  Perubahan Pelayanan Kesehatan Akhirnya Mengakui Membayar Pencuri Ransomwar

Hume AI

Model TTS dari Hume AI juga menawarkan realisme tinggi. Perusahaan ini mengklaim bahwa Empathic Voice Interface (EVI) mereka bisa menangkap nuansa halus dalam suara manusia, memberikan kedalaman yang lebih meyakinkan. Seperti ElevenLabs, Hume menyediakan berbagai karakter suara AI siap pakai dan memungkinkan pembuatan suara kustom melalui deskripsi teks.

Saya mencoba membuat suara Samwise Gamgee dari The Lord of the Rings. Prompt-nya:
"Hobbit yang lembut tapi berani, dengan aksen British kelas pekerja khas West Country—mungkin sedikit Welsh—terdengar takut tapi bertekad menyelesaikan misi."

Setelah memasukkan dialog ikonik Sam, "If I take one more step…", Hume menghasilkan tiga sampel dengan variasi nada. Hasilnya sangat realistis secara emosional, meski tidak persis seperti suara Sean Astin.

Anda bisa menambahkan jeda dengan menulis "[pause]" atau kata-kata informal seperti "y’all" untuk meningkatkan naturalisme.

Descript

Jika mencari alat pembuat suara AI dengan fitur editing lengkap, Descript layak dipertimbangkan.

Model TTS-nya menghasilkan file audio dalam bentuk waveform yang bisa diedit seperti di Adobe Audition. Anda bisa memilih dari perpustakaan suara AI atau mengkloning suara sendiri dengan merekam sampel singkat.

Saya mencoba fitur kloning suara dengan membaca:
"Summers in New York City are getting brutal…"

Percobaan pertama terdengar seperti suara saya tapi masih terasa robotik. Setelah merekam ulang dengan lebih pelan dan jelas, hasilnya jauh lebih alami—bahkan lebih baik daripada fitur serupa dari Hume.

Anda juga bisa mengedit hasil audio langsung dari teks prompt. Meski mungkin tidak sempurna bagi orang terdekat, suara ini bisa menipu kenalan yang kurang akrab. Alat ini sangat berguna untuk narasi artikel atau konten audio lainnya.

MEMBACA  Fitur iPhone 17 Favorit yang Jarang Anda Gunakan

Descript juga menawarkan fitur AI untuk menghapus kata pengisi ("um", "uh") dan jeda tidak perlu, cocok bagi podcaster atau content creator.

Saran ZDNET

Ingat, ini hanya tiga dari banyak model TTS yang tersedia. Preferensi pengguna akan bergantung pada kebutuhan, keahlian teknis, dan anggaran masing-masing. Elyse Betters Picaro / ZDNET

Poin Penting ZDNET
Kini ada banyak alat AI yang dapat menghasilkan suara mirip manusia. Beberapa suara AI bahkan bisa berbisik, tertawa, dan melakukan ekspresi lainnya. Alat TTS (text-to-speech) bervariasi dalam hal realisme dan target penggunanya.

Sebelum memilih platform, luangkan waktu beberapa menit untuk mencoba berbagai opsi guna mengetahui antarmuka mana yang paling intuitif dan fitur mana yang paling sesuai dengan tujuan kreatif Anda. Ingat juga bahwa setiap layanan memiliki kebijakan berbeda dalam penggunaan data Anda.

Juga: Text-to-speech dengan perasaan – model AI baru ini bisa melakukan segalanya kecuali menangis

Terlepas dari platform yang Anda gunakan, perhatikan seberapa cepat teknologi ini terus berkembang. Dalam waktu dekat, dunia mungkin akan dipenuhi suara-suara AI — dan beberapa di antaranya bisa terdengar persis seperti suara Anda sendiri.

Ingin cerita lain seputar AI? Cek AI Leaderboard, newsletter mingguan kami.

(Typos: "banyak" instead of "beberapa", "fitur" instead of "fitu")