OpenAI Dapat Membuat Ulang Suara Manusia—tapi Belum Akan Merilis Teknologi Ini

Teknologi sintesis suara telah mengalami perkembangan yang pesat sejak mainan Speak & Spell tahun 1978, yang dulu memukau orang dengan kemampuannya yang canggih untuk membaca kata-kata dengan suara elektronik. Sekarang, menggunakan model AI deep-learning, perangkat lunak dapat menciptakan suara yang realistis dan bahkan dapat meniru suara yang sudah ada dengan menggunakan sampel audio kecil.

Sejalan dengan hal itu, OpenAI minggu ini mengumumkan Voice Engine, sebuah model AI teks-ke-suara untuk menciptakan suara sintetis berdasarkan segmen audio rekaman selama 15 detik. Perusahaan telah menyediakan contoh audio dari Voice Engine yang sedang beraksi di situs webnya.

Setelah suara berhasil dikloning, pengguna dapat memasukkan teks ke dalam Voice Engine dan mendapatkan hasil suara yang dihasilkan oleh AI. Namun, OpenAI belum siap untuk secara luas melepaskan teknologinya. Perusahaan awalnya berencana untuk meluncurkan program pilot bagi pengembang untuk mendaftar API Voice Engine awal bulan ini. Namun setelah pertimbangan lebih lanjut tentang implikasi etis, perusahaan memutuskan untuk membatasi ambisinya untuk saat ini.

“Dalam kesesuaian dengan pendekatan kami terhadap keselamatan AI dan komitmen sukarela kami, kami memilih untuk memperlihatkan namun tidak secara luas melepaskan teknologi ini saat ini,” tulis perusahaan tersebut. “Kami berharap bahwa pratinjau Voice Engine ini menegaskan potensinya dan juga memotivasi kebutuhan untuk memperkuat ketahanan sosial terhadap tantangan yang dibawa oleh model generatif yang semakin meyakinkan.”

Teknologi kloning suara pada umumnya bukanlah hal yang baru—telah ada beberapa model sintesis suara AI sejak tahun 2022, dan teknologi ini aktif dalam komunitas sumber terbuka dengan paket seperti OpenVoice dan XTTSv2. Namun, gagasan bahwa OpenAI mendekati tahap memungkinkan siapa pun menggunakan merek teknologi suaranya yang khusus patut diperhatikan. Dan dalam beberapa hal, ketidaksiapan perusahaan untuk melepaskannya sepenuhnya mungkin menjadi berita yang lebih besar.

MEMBACA Saham Berkembang Pesat ini Kian Memperkuat Alasan untuk Berinvestasi

OpenAI mengatakan bahwa manfaat teknologi suaranya termasuk memberikan bantuan membaca melalui suara yang alami, memungkinkan jangkauan global bagi pencipta dengan menerjemahkan konten sambil mempertahankan aksen asli, mendukung individu yang tidak bisa berbicara dengan opsi ucapan yang dipersonalisasi, dan membantu pasien dalam memulihkan suara mereka sendiri setelah kondisi yang menghambat bicara.

Namun, hal itu juga berarti bahwa siapa pun yang memiliki 15 detik rekaman suara seseorang efektif dapat mengklonnya, dan hal itu memiliki implikasi yang jelas untuk penyalahgunaan potensial. Bahkan jika OpenAI tidak pernah secara luas melepaskan Voice Engine-nya, kemampuan untuk mengkloning suara telah menyebabkan masalah dalam masyarakat melalui penipuan telepon di mana seseorang menirukan suara orang yang dicintai dan panggilan robokampanye pemilihan yang menampilkan suara yang dikloning dari politisi seperti Joe Biden.

Selain itu, para peneliti dan wartawan telah menunjukkan bahwa teknologi kloning suara dapat digunakan untuk meretas rekening bank yang menggunakan otentikasi suara (seperti Voice ID Chase), yang mendorong senator AS Sherrod Brown dari Ohio, ketua Komite Senat AS tentang Perbankan, Perumahan, dan Urusan Kota, untuk mengirimkan surat kepada para CEO beberapa bank besar pada bulan Mei 2023 untuk menanyakan langkah-langkah keamanan yang diambil bank-bank tersebut untuk menanggulangi risiko yang didukung oleh AI.

OpenAI menyadari bahwa teknologi ini mungkin menimbulkan masalah jika dilepaskan secara luas, sehingga awalnya mencoba untuk bekerja di sekitar masalah tersebut dengan seperangkat aturan. Perusahaan telah menguji teknologi dengan sejumlah perusahaan mitra terpilih sejak tahun lalu. Misalnya, perusahaan sintesis video HeyGen telah menggunakan model ini untuk menerjemahkan suara pembicara ke bahasa lain sambil tetap mempertahankan suara vokal yang sama.

MEMBACA Nova ini hampir meledak. Anda bisa melihatnya kapan saja sekarang. Nova ini hampir meledak. Anda bisa melihatnya dalam waktu dekat.