OpenAI menawarkan akses terbatas ke platform generasi teks-ke-suara yang mereka kembangkan bernama Voice Engine, yang dapat membuat suara sintetis berdasarkan klip suara seseorang selama 15 detik. Suara yang dihasilkan oleh kecerdasan buatan tersebut dapat membacakan prompt teks sesuai perintah dalam bahasa yang sama dengan pembicara atau dalam beberapa bahasa lain. “Deployments skala kecil ini membantu untuk menginformasikan pendekatan kami, perlindungan, dan pemikiran tentang bagaimana Voice Engine bisa digunakan untuk kebaikan di berbagai industri,” kata OpenAI dalam pos blognya.
Perusahaan-perusahaan yang memiliki akses meliputi perusahaan teknologi pendidikan Age of Learning, platform visual storytelling HeyGen, pembuat perangkat lunak kesehatan frontline Dimagi, pencipta aplikasi komunikasi kecerdasan buatan Livox, dan sistem kesehatan Lifespan.
Dalam sampel yang diposting oleh OpenAI, Anda dapat mendengar apa yang telah dilakukan Age of Learning dengan teknologi untuk menghasilkan konten suara di atas skrip, serta membaca “respon personalisasi real-time” kepada siswa yang ditulis oleh GPT-4.
Pertama, audio referensi dalam Bahasa Inggris:
Dan inilah tiga klip audio yang dihasilkan oleh kecerdasan buatan berdasarkan sampel tersebut,
OpenAI mengatakan bahwa mereka mulai mengembangkan Voice Engine pada akhir tahun 2022 dan bahwa teknologi tersebut telah digunakan untuk suara bawaan pada API teks-ke-suara dan fitur Baca Aloud ChatGPT. Dalam wawancara dengan TechCrunch, Jeff Harris, anggota tim produk OpenAI untuk Voice Engine, mengatakan model tersebut dilatih dengan “campuran data berlisensi dan data yang tersedia secara publik.” OpenAI mengatakan kepada publikasi tersebut bahwa model ini hanya akan tersedia untuk sekitar 10 pengembang.
Generasi teks-ke-suara kecerdasan buatan adalah area kecerdasan buatan generatif yang terus berkembang. Sementara sebagian besar fokus pada suara instrumental atau alami, sedikit yang berfokus pada generasi suara, sebagian disebabkan oleh pertanyaan yang disebutkan oleh OpenAI. Beberapa nama dalam ruang ini termasuk perusahaan seperti Podcastle dan ElevenLabs, yang menyediakan teknologi kloning suara kecerdasan buatan dan alat yang dieksplorasi oleh Vergecast tahun lalu.
Menurut OpenAI, mitra-mitra mereka setuju untuk mematuhi kebijakan penggunaan yang menyatakan bahwa mereka tidak akan menggunakan Voice Generation untuk menyamar sebagai orang atau organisasi tanpa izin mereka. Juga mengharuskan mitra-mitra untuk mendapatkan “persetujuan eksplisit dan terinformasi” dari pembicara asli, tidak membangun cara bagi pengguna individu untuk membuat suara mereka sendiri, dan mengungkapkan kepada pendengar bahwa suara tersebut dihasilkan oleh kecerdasan buatan. OpenAI juga menambahkan tanda air ke klip audio untuk melacak asalnya dan secara aktif memantau bagaimana audio tersebut digunakan.
OpenAI menyarankan beberapa langkah yang menurut mereka dapat membatasi risiko seputar alat seperti ini, termasuk menghentikan penggunaan otentikasi berbasis suara untuk mengakses rekening bank, kebijakan untuk melindungi penggunaan suara orang dalam kecerdasan buatan, pendidikan yang lebih besar tentang deepfake kecerdasan buatan, dan pengembangan sistem pelacak konten kecerdasan buatan.