Ikonya Hollywood masa lalu kembali dalam kesepakatan kloning suara AI

Bintang-bintang dari era keemasan Hollywood sedang dilahirkan kembali melalui kesepakatan kloning suara AI warisan selebriti, tanda bahwa beberapa kekhawatiran “Wild West” tentang impersonasi AI yang tidak sah sedang ditangani melalui model bisnis baru.

ElevenLabs, sebuah startup teknologi audio yang didanai oleh perusahaan modal ventura termasuk Andreessen Horowitz dan Sequoia telah menandatangani beberapa kesepakatan dengan warisan aktor legendaris untuk alat IconicVoices mereka yang memungkinkan pengguna memiliki suara yang dihasilkan oleh AI membacakan kepada mereka melalui aplikasi buku audio. Bintang-bintang tersebut termasuk Burt Reynolds, Judy Garland, James Dean, dan Sir Laurence Olivier.

ElevenLabs, yang diluncurkan pada tahun 2023, menciptakan audio untuk buku dan artikel berita, karakter permainan video, pra-produksi film, dan media sosial dan periklanan. Perusahaan ini sudah bekerja sama dengan penerbit seperti New York Times dan Washington Post dan awal tahun ini, perusahaan ini dipilih oleh Disney untuk bergabung dengan program akselerator mereka.

“Anda memerlukan sekitar 30 menit audio berkualitas tinggi untuk membuat klon suara profesional,” kata Sam Sklar, anggota tim pertumbuhan ElevenLabs, dan suara-suara tersebut dihasilkan dari katalog selebriti. Setelah dibuat, suara tersebut dapat dipanggil untuk membaca teks (artikel, PDF, ePub, surat kabar, atau konten teks lainnya). Namun, suara dan kontennya tidak dapat diekspor, dengan semua pendengaran dalam aplikasi membaca.

Seorang pengguna misalnya, bisa memiliki artikel-artikel yang diceritakan oleh James Dean dalam aplikasi itu, tetapi pengguna tidak dapat mengakses suara untuk konten apa pun yang belum ada dalam aplikasi.

Jenis kesepakatan seperti ini bisa membantu menetapkan batasan untuk masa depan di mana konten suara yang dihasilkan oleh AI kurang kontroversial dan lebih menjadi wilayah yang terkontrol, terkurasi. Google Play dan Apple Books sudah menggunakan suara yang dihasilkan oleh AI sampai batas tertentu, meskipun ada hambatan besar untuk mereproduksi ritme suara manusia, intonasi, dan emosi.

MEMBACA Iran Klaim Selat Hormuz Kembali Ditutup

Industri AI telah dilanda kekhawatiran tentang penggunaan suara selebriti, dengan OpenAI berbalik arah pada bulan Mei setelah aktris Scarlett Johansson menuduh perusahaan tersebut mencuri suaranya setelah ia menolak tawaran untuk melisensikannya.

“Kami sangat menyadari risiko yang terkait dengan media sintetis dan sangat serius dalam penggunaan aman alat kami,” kata Sklar. Langkah-langkah pengamanan meliputi moderasi konten aktif, akuntabilitas yang dapat ditegakkan dengan larangan, dan ketentuan khusus untuk melindungi dampak suara AI pada pemilihan 2024.

Di antara generasi aktor saat ini, masih ada kecemasan yang signifikan seputar penggunaan AI dalam menghasilkan konten suara. Aktor suara permainan video telah menimbulkan kekhawatiran, dan mogok film dan televisi tahun lalu memiliki akar yang signifikan dalam kecemasan atas penggunaan AI. Penggunaan suara ikonik yang dijual oleh warisan adalah niche pasar yang potensial menghindari jebakan ini, mewakili aliran pendapatan baru dari AI daripada aliran pendapatan yang hilang karena AI.

Penggunaan suara mirip selebriti adalah masalah yang sudah ada sebelum AI, seperti kasus tahun 1988 di mana Frito Lay menggunakan suara mirip Tom Waits dalam iklan mereka, dan kasus lain Waits pada tahun 2007, setelah Waits sendiri sudah lama menolak tawaran iklan. AI menawarkan jalan yang lebih mudah untuk menciptakan suara mirip, dan gugatan terbaru yang dilayangkan terhadap startup AI Lovo atas penggunaan tidak pantas dan tidak dibayar kepada aktor suara dalam menghasilkan suara AI-nya adalah pengingat bahwa dunia generasi suara AI kemungkinan akan tetap menjadi dunia yang rumit dan penuh tuntutan.

Sulit untuk menilai perlindungan yang ada tanpa meninjau bahasa spesifik dari kontrak IconicVoices, kata Steve Cohen, seorang mitra di Pollock & Cohen yang mewakili aktor suara dalam gugatan yang tidak terkait yang menuduh kloning suara tanpa izin.

MEMBACA Lagu TikTok 'McDonald's di Pentagon' membuat ska kembali tren

ElevenLabs menunjukkan cara alat IconicVoices mereka mendapatkan izin dan mengurasi penggunaan suara. “Memberikan izin untuk menggunakan suara seseorang adalah salah satu dasar,” kata Cohen. “Saya pikir faktor kunci adalah izin, kompensasi, dan kontrol.”

Hukum baru yang lebih jelas juga dapat menjadi dorongan bagi orang-orang yang tertarik untuk secara tidak semestinya menggunakan suara, “bukan untuk orang-orang jahat yang keras, tetapi untuk kasus-kasus tepi,” kata Cohen. Tetapi mengutip Bette Davis dalam “All About Eve,” ia menambahkan, “‘Pasang sabuk pengaman Anda; ini akan menjadi perjalanan yang bergelombang.'”

Seberapa realistis suara yang dicloning terdengar juga menjadi masalah yang terus berkembang. Banyak ahli mengatakan bahwa karena AI tidak “tahu” apa yang dikatakannya, kualitas kinerja terbatas. Sklar mengatakan tingkat kualitas pidato terbaru dari ElevenLabs tidak dapat dibedakan dari pidato manusia yang sebenarnya. “Alat teks ke suara dari ElevenLabs dapat memahami konteks kata-kata,” katanya.

AI hanya sebaik model di mana ia dilatih, dan dataset suara aktor menjadi bagian dari proses tersebut.

“Model neural mendapatkan kemampuannya dari meniru/menghafal nuansa dan pola yang ada dalam data pelatihan mereka,” kata Nauman Dawalatabad, seorang peneliti pasca doktoral di MIT Computer Science and Artificial Intelligence Laboratory dengan penelitian yang luas dalam generasi suara AI. “Kualitas dan keragaman data pelatihan sangat memengaruhi kinerja model.”

Pengiriman vokal bintang film bisa menambahkan pada peniruan dan pembelajaran AI dengan menyediakan jenis “dataset suara berkualitas tinggi untuk melatih dan menyempurnakan model-model besar” yang menurut Dawalatabad sangat penting dalam proses tersebut. Namun, ia menyatakan keraguan tentang “mengucapkan suara manusia” sebagai uji tes yang tepat untuk bidang suara AI, karena hal itu dapat memperkuat hubungan antagonis antara suara manusia dan sintetis.

MEMBACA Mantan Presiden Bolivia Luis Arce Ditangkap dalam Penyidikan Korupsi

Aktor suara tetap terbagi pendapat tentang teknologi ini, dengan beberapa menolak untuk mempertimbangkan kesepakatan apa pun tetapi yang lain mengatakan kesempatan untuk mengkloning suara mereka untuk produksi lebih cepat dan murah pada beberapa bentuk buku audio tidak bisa diabaikan. “Teknologi AI dapat membantu alur kerja. AI bukanlah alat baru bagi bakat suara, produser, dan penerbit, banyak di antaranya yang menggunakannya untuk meningkatkan kontrol kualitas mereka dalam pascaproduksi,” kata Michele Cobb, direktur eksekutif Asosiasi Penerbit Audio, kepada CNBC tahun lalu.

Model generatif terbaru telah menunjukkan kemajuan yang substansial dibandingkan dengan iterasi sebelumnya, membuat semakin sulit untuk membedakan antara suara palsu dan autentik hanya dengan telinga, menurut Dawalatabad. Lisensi suara AI dapat meringankan beban kerja bagi aktor suara, tambahnya, tanpa menggantikan mereka, karena mereka “campur tangan dalam proses dengan fokus pada menawarkan koreksi atau peningkatan terhadap aspek-aspek ineffable seperti intonasi, kehangatan, dan penekanan, yang masih menjadi tantangan.”