Chicken Brave/Getty Images
Jika kamu pernah ingin berbicara dengan versi AI dari dirimu sendiri, sekarang kamu bisa—kurang lebih.
Pada hari Kamis, startup AI Hume mengumumkan peluncuran fitur baru "kloning suara hiperrealistis" untuk model terbarunya, Empathic Voice Interface (EVI) 3, yang diperkenalkan bulan lalu. Caranya, kamu hanya perlu mengunggah rekaman suaramu yang pendek—idealnya antara 30 hingga 90 detik—lalu model ini akan membuat replika AI dari suaramu. Kamu bisa berinteraksi secara verbal dengannya, seperti berbicara dengan orang lain yang ada di depanmu.
Baca juga: Text-to-speech dengan perasaan—model AI baru ini bisa segalanya kecuali menangis
Aku mencoba mengunggah rekaman suaraku ke EVI 3 dan mengobrol santai dengan tiruan suaraku sendiri. Awalnya berharap mengalami Uncanny Valley—sensasi langka ketika berinteraksi dengan sesuatu yang terasa hampir nyata tapi tetap ada keanehan yang membuat kita tidak nyaman—tapi sayangnya, AI-ku di EVI 3 lebih mirip versi kartun audio dari diriku.
Mari kita bahas lebih dalam.
Menggunakan fitur kloning suara EVI 3
Screenshot oleh Webb Wright/ZDNET
Di beberapa aspek, tiruan suaraku terdengar cukup realistis. AI ini berhenti sejenak saat berbicara, mirip dengan kebiasaanku, bahkan dengan sedikit vocal fry yang khas. Tapi kesamaan berhenti di situ.
Hume mengklaim dalam blog post-nya bahwa fitur kloning suara EVI 3 bisa menangkap "aspek kepribadian pembicara." Ini janji yang ambigu (mungkin sengaja), dan dalam percobaanku, model ini gagal mencapainya. Alih-alih meniru kebiasaan dan selera humorku, AI ini berbicara dengan nada ceria dan terlalu ingin menyenangkan, seperti iklan radio untuk antidepresan. Aku menganggap diriku ramah dan optimis, tapi AI ini jelas melebih-lebihkan sifat itu.
Baca juga: Lawan AI dengan AI—perusahaan finansial cegah penipuan $5 juta, tapi dengan biaya apa?
Meskipun bersikap seperti anak anjing, model ini anehnya keras kepala menolak mencoba aksen, padahal itu bisa jadi latihan yang menyenangkan. Saat kuminta tiruan suaraku berbicara dengan logat Australia, ia hanya bilang "g’day" dan "mate" sekali-dua kali dengan suaraku biasa, lalu menghindari hal yang lebih berani. Selain itu, apapun topik yang kujadikan prompt, AI ini selalu menemukan cara kreatif untuk mengaitkannya kembali dengan topik yang kubicarakan saat merekam sampel suara—mirip eksperimen Anthropic tahun lalu di mana Claude dibuat terobsesi dengan Golden Gate Bridge.
Misalnya, dalam percobaan kedua, aku merekam diriku membahas Led Zeppelin, yang kudengar pagi itu. Ketika kubuat tiruan suaraku menjelaskan pemikirannya tentang materi gelap, ia malah membandingkan gaya misterius di alam semesta dengan melodi tak kasatmata yang memberi makna pada sebuah lagu.
Kamu bisa mencoba fitur kloning suara EVI 3 sendiri di sini.
Menurut situs Hume, data pengguna dari interaksi dengan API EVI dikumpulkan dan di-anonymize secara default untuk melatih model mereka. Tapi kamu bisa mematikannya melalui fitur "Zero data retention" di profilmu. Untuk produk non-API (termasuk demo di atas), perusahaan mengatakan mereka "mungkin" mengumpulkan data untuk meningkatkan model—tapi sekali lagi, kamu bisa mematikannya jika membuat profil pribadi.
Robot yang berbisik
Suara AI sudah ada sejak lama, tapi sebelumnya sangat terbatas dalam hal realisme—sangat jelas kita berbicara dengan robot saat mendapat respons dari Siri atau Alexa klasik. Sebaliknya, gelombang baru model suara AI—termasuk EVI 3—tidak hanya dirancang untuk berbicara dalam bahasa alami, tapi juga meniru inflection, intonasi, keunikan, dan irama dalam percakapan manusia sehari-hari.
"Bagian besar dari komunikasi manusia adalah menekankan kata yang tepat, berhenti di waktu yang tepat, menggunakan nada suara yang pas," kata CEO Hume sekaligus kepala ilmuwan Alan Cowen.
Seperti yang ditulis Hume dalam blog post, EVI 3 "tahu kata mana yang harus ditekankan, apa yang membuat orang tertawa, dan bagaimana aksen serta ciri suara lainnya berinteraksi dengan kosakata." Menurut perusahaan, ini lompatan teknis besar dari model generasi suara sebelumnya yang "tidak punya pemahaman bermakna tentang bahasa."
Banyak ahli AI mungkin keberatan dengan penggunaan kata "pemahaman" di sini, karena model seperti EVI 3 hanya dilatih untuk mendeteksi dan mereplikasi pola dari data pelatihan yang masif—proses yang belum tentu mencakup pemahaman semantik sejati.
Baca juga: ChatGPT bukan cuma untuk mengobrol—sekarang bisa mengerjakan tugasmu
Menurut blog post Hume, EVI 3 dilatih dengan "triliunan token teks dan jutaan jam ucapan." Cowen mengatakan, pendekatan ini saja sudah membuat model ini berbicara dengan suara yang jauh lebih realistis dari yang diperkirakan.
Tapi terlepas dari perdebatan filosofis, model suara AI generasi baru ini benar-benar mengesankan. Ketika diberikan prompt, mereka bisa mengeksplorasi berbagai ekspresi vokal yang jauh lebih luas daripada pendahulunya. Perusahaan seperti Hume dan ElevenLabs mengklaim bahwa model baru ini akan memberikan manfaat praktis bagi industri seperti hiburan dan pemasaran. Namun, beberapa ahli khawatir teknologi ini justru membuka peluang baru untuk penipuan—seperti yang terlihat pekan lalu ketika seseorang menggunakan AI untuk meniru suara Menteri Luar Negeri AS Marco Rubio dan menyebarkan klon suara tersebut untuk menipu pejabat pemerintah.
"Saya tidak melihat alasan mengapa kita membutuhkan robot yang berbisik," kata Emily M. Bender, seorang linguis dan penulis The AI Con. "Untuk apa? Kecuali mungkin untuk menyamarkan fakta bahwa apa yang didengar itu sintetis?"
Revolusi Jadi Rutinitas
Ya, fitur kloning suara EVI 3, seperti semua alat AI, memiliki kekurangan. Namun, keunggulannya jauh lebih menonjol.
Pertama, kita harus ingat bahwa model AI generatif yang ada saat ini masih dalam tahap awal dan akan terus berkembang. Dalam waktu kurang dari tiga tahun, kita beralih dari peluncuran publik ChatGPT ke model AI yang bisa meniru suara manusia dengan cukup meyakinkan dan alat seperti Google Veo 3 yang menghasilkan video realistis dengan audio yang sinkron. Kecepatan perkembangan AI generatif ini sungguh mengkhawatirkan.
Sekarang, EVI 3 bisa meniru suara dengan cukup kasar. Namun, tidak berlebihan untuk berharap bahwa penerusnya—atau bahkan penerusnya lagi—akan mampu menangkap suara dengan cara yang benar-benar meyakinkan. Di dunia seperti itu, EVI atau model pembuat suara serupa bisa dipasangkan dengan agen AI untuk, misalnya, menghadiri rapat Zoom atas nama kita. Atau, lebih buruk lagi, menjadi alat impian penipu.
Yang paling mencolok dari pengalaman saya mencoba fitur kloning suara EVI 3 adalah betapa biasa saja teknologi ini terasa.
Seiring percepatan inovasi teknologi, kemampuan kita untuk menormalisasi hal-hal yang dulu membuat generasi sebelumnya terpukau juga semakin cepat. Sam Altman dari OpenAI menyebutkan hal ini dalam sebuah tulisan baru-baru ini: Menurutnya, kita sedang mendekati Singularitas, tapi semuanya terasa seperti biasa saja.
Ingin cerita lebih banyak tentang AI? Daftar Innovation, newsletter mingguan kami.