Sejak merilis ChatGPT dan memperkenalkan era kecerdasan buatan generatif, OpenAI telah tetap berada di garis depan dengan teknologi kecerdasan buatan mutakhir seperti Sora, pembuat video teks AI yang mengesankan. Pada Jumat, perusahaan tersebut melangkah lebih jauh dengan membagikan wawasan dari pratinjau skala kecil Voice Engine, model AI kloning suara yang dapat menciptakan suara realistis dan emosional menggunakan masukan teks dan sampel audio 15 detik.
Seperti yang terlihat dalam klip di bawah ini, teknologi ini dapat menghasilkan suara yang sangat realistis yang sangat menyerupai suara dalam klip referensi. Sebuah generator suara AI yang mampu meniru suara seseorang dari hanya sampel 15 detik – apa yang bisa salah?
OpenAI baru saja meluncurkan Voice Engine,
Ia menggunakan masukan teks dan satu sampel audio 15 detik untuk menghasilkan pidato yang terdengar alami yang sangat menyerupai pembicara asli.
Audio Referensi dan Hasil yang dihasilkan sangat mirip dan sulit dibedakan.
Rincian lebih lanjut dalam 🧵 pic.twitter.com/tJRrCO2WZP— AshutoshShrivastava (@ai_for_success) 29 Maret 2024
OpenAI menyadari risiko dari model kloning suara dan, sebagai hasilnya, belum merilisnya ke publik, meskipun pertama kali mengembangkan Voice Engine pada akhir 2022. “Kami menyadari bahwa menghasilkan pidato yang menyerupai suara orang memiliki risiko serius, yang khususnya menjadi perhatian utama dalam tahun pemilihan,” kata perusahaan tersebut dalam pos blognya.
Pada tahun 2023, OpenAI mulai menguji Voice Engine secara pribadi dengan sekelompok mitra untuk membantu perusahaan mempelajari lebih lanjut tentang model tersebut, termasuk kasus penggunaan potensial, perlindungan, dan lainnya.
Para mitra yang menguji Voice Engine harus menyetujui kebijakan penggunaan OpenAI, yang secara eksplisit melarang mereka untuk meniru individu atau organisasi tanpa persetujuan pembicara asli. Safeguard lain termasuk mengungkapkan kepada audiens bahwa suara yang mereka dengar adalah hasil dari AI, watermarks yang dapat ditelusuri kembali ke Voice Engine, memantau penggunaan model, dan melarang pembuatan suara mereka sendiri.
Para mitra OpenAI telah mengambil Voice Engine dan mengembangkan kasus penggunaan dengan dampak positif yang potensial.
Misalnya, startup edtech Age of Learning menggunakan Voice Engine untuk memberikan bantuan membaca kepada non-pembaca dan anak-anak dengan menghasilkan konten suara pra-scripted dan tanggapan terpersonal. Begitu pula, startup pembuat avatar AI HeyGen membangun alat di atas Voice Engine yang menerjemahkan suara pembicara ke dalam beberapa bahasa.
Meskipun OpenAI masih menjaga Voice Engine dalam pratinjau untuk saat ini, model serupa lainnya sudah tersedia untuk publik. Ambil contoh ElevenLabs, sebuah startup yang telah menjadi sorotan baik untuk kasus penggunaan positif maupun negatif dari platform pembuat suara berbasis AI-nya. Contoh terkenal dari teknologi ElevenLabs mungkin adalah panggilan palsu terbaru Presiden Joe Biden yang mendorong pemilih untuk tidak datang ke tempat pemungutan suara.
ElevenLabs Voice Cloning tool mudah diakses dan digunakan. Yang Anda butuhkan hanyalah akun ElevenLabs, beberapa menit sampel suara, dan promp teks.
OpenAI bijaksana untuk menunda masuknya ke ruang kloning suara. Industri teknologi perlu meningkatkan kesadaran akan risiko suara yang dihasilkan oleh AI dan menekankan kepada pengguna pentingnya memverifikasi sumber sebelum mereka percaya pada apa yang mereka dengar dan lihat.