Membuat avatar dari diri sendiri bahkan lebih aneh dari yang saya bayangkan.
Pengalamannya seperti direncanakan dan membuat saya merasa sangat canggung, padahal saya sendirian. Saya kasih akses kamera laptop saya ke platform avatar itu—dalam hal ini, Synthesia, sebuah perusahaan video AI dari London. Selama sekitar dua menit, saya membaca teks dengan suara keras sambil gulir layar:
"Sebelum lanjut, saya merasakan perasaan senang."
"Saat saya ucapkan pernyataan positif berikut, ada energi di suara saya. Nada saya menarik dan cerah."
"Dia tertawa setiap kali angin menggelitik hidungnya."
Lalu saya lanjut dengan serangkaian pernyataan positif yang cocok untuk perusahaan, seperti: Bayangkan dampak yang bisa kita buat dengan ide revolusioner ini!
Vibenya tidak buruk, tapi aneh—prosesnya membuat saya merasa terbuka, seperti saya memberikan sedikit dari diri saya ke komputer. Prosesnya juga cepat—hanya sekitar 10 menit, termasuk mengklik-klik di awal, menjatuhkan cangkir kopi, dan membaca skrip dua kali untuk memperbaiki kecanggungan saya dari percobaan pertama. Saya kirim videonya dan Synthesia bilang saya akan dapat avatar dalam satu hari. Waktu yang singkat untuk versi digital saya, menurut saya, karena versi asli saya butuh 32 tahun untuk dibuat.
Dalam satu tahun terakhir, 150,000 pengguna Synthesia telah membuat avatar AI dari diri mereka sendiri. (Pelanggan juga sering pilih dari 250 avatar stok perusahaan.) Dan walaupun saya buat avatar saya untuk jurnalisme, penggunaan paling umum untuk Synthesia adalah untuk bisnis: video pelatihan bisnis dan komunikasi internal. Avatar Synthesia sudah membuat kemajuan pesat di dunia bisnis: Perusahaan itu bilang mereka sekarang punya lebih dari 65,000 pelanggan, dan melayani lebih dari 70% dari Fortune 100. Perusahaan, yang sekarang punya 500 karyawan, telah mengumpulkan lebih dari $330 juta dari investor, termasuk nama-nama besar seperti Kleiner Perkins, GV, Accel, dan NEA.
Ini adalah kesuksesan video yang sangat tidak seperti Hollywood. Pelanggan perusahaan akses platform Synthesia, di mana mereka bisa buat video dengan satu alat, sama seperti mereka bayar Microsoft untuk PowerPoint. Daya tariknya adalah kombinasi dari biaya dan skala: Jika kamu punya perusahaan multinasional besar, membuat video dalam banyak bahasa adalah usaha yang mahal dan butuh waktu lama, yang biasanya terbatas untuk tim dengan budget besar. Juga, kebanyakan orang lebih mudah menyerap informasi lewat video daripada teks, dan ini terutama benar untuk pekerja Gen Z yang jumlahnya bertambah dan besar dengan TikTok dan Instagram Reels. Untuk komunikasi dengan pekerja ini secara efektif, manajer perlu lakukan itu dengan video.
"Saya pikir ini benar untuk hampir semua teknologi transformatif—bahwa kekuatan sebenarnya adalah memungkinkan grup orang baru untuk melakukan sesuatu yang tidak bisa mereka lakukan sebelumnya," kata Victor Riparbelli, CEO dan pendiri Synthesia. "Apa yang kami pelajari adalah ada milyaran orang di dunia yang tidak membuat video hari ini tetapi sangat ingin membuat video."
Membuat ‘orang’ digital terasa lebih nyata
Teknologi Synthesia jelas adalah hasil dari gelombang AI generatif, didukung oleh model AI besar yang dilatih untuk memahami apa yang kita katakan dan bagaimana kita mengatakannya. Ini menciptakan avatar yang meniru ucapan dengan realisme yang meyakinkan—bukan melalui video yang direkam sebelumnya, tapi melalui AI yang bisa memprediksi gerakan dan ekspresi wajah. Hasilnya adalah orang digital yang cukup natural. Naturalisme itu, pada gilirannya, membantu pemirsa dan pendengar merasa lebih nyaman—walaupun videonya kadang-kadang agak aneh dan hampir masuk ‘uncanny valley’.
Lima tahun sebelum ChatGPT menciptakan ledakan AI, Synthesia diluncurkan pada tahun 2017. Riparbelli—asalnya dari kota kecil di Denmark di mana, sebagai anak-anak, dia membuat website untuk toko lokal—bertemu dengan para pendiri lainnya Steffen Tjerrild, Matthias Niessner, dan Lourdes Agapito melalui jaringan koneksi akademik dan startup.
Di tahun-tahun awal, para pendiri bahkan belum fokus pada pembuatan video, malah mengarahkan energi untuk menggunakan AI untuk mengalihsuarakan video yang sudah ada dan bertahan hidup dengan cara apa pun yang mereka bisa. Berjuang untuk mendapatkan dana di momen yang sangat penting, mereka menemukan email Mark Cuban dan mengiriminya pesan tanpa kenal sebelumnya. Cuban membalas dalam enam menit, memicu pertukaran email 12 jam yang berlangsung sampai jam 4 pagi waktu Inggris—setelah itu dia cepat berkomitmen untuk investasi $1 juta.
"Tiga atau empat tahun pertama memang bukan sebuah kesuksesan," kata Riparbelli. "Sulit dapat pendanaan. Teknologinya tidak bekerja. Kami tidak terlalu tahu untuk apa sebenarnya ini berguna. Butuh waktu sampai akhir 2020, ketika kami mencapai momen infleksi kami."
Transisi Synthesia ke video perusahaan terjadi perlahan, dan kemudian tiba-tiba, sebuah hasil sampingan dari berbicara dengan ribuan calon pelanggan yang menginginkan sesuatu yang lebih baik dari PDF atau PowerPoint.
"Apa yang kami temukan adalah banyak orang di pekerjaan perusahaan yang melakukan pelatihan, pemasaran, dukungan pelanggan—semua orang ini berkata pada kami: ‘Saya tahu bahwa saya punya pesan penting. Dan saya tahu bahwa tidak ada yang membaca dokumen saya,’" kata Riparbelli. "Mereka bilang: ‘Saya ingin membuat video, tapi membuat video tidak bisa diskalakan.’"
Hari ini, pelanggan Fortune 500 dan Fortune Global 500 Synthesia semua menggunakan teknologinya dengan cara yang sangat spesifik dan dipersonalisasi untuk bisnis mereka, tetapi memiliki kemiripan satu sama lain. Perusahaan farmasi Merck KGaA dari Darmstadt, Jerman, menggunakan Synthesia untuk menggantikan rekaman langsung yang memakan waktu tentang pembaruan produk, dan untuk pelatihan multibahasa. Perusahaan "melihat potensi besar bagi avatar untuk membuat informasi lebih mudah dicerna dan diakses," tulis Florian Metz, kepala global portfolio produk analitik dan AI di Merck KGaA, via email kepada Fortune.
Di California, ServiceNow menggunakan teknologinya untuk program pembelajaran globalnya. Untuk Sales Onboarding Academy perusahaan, Pasquale Fontanetta, VP Learning Solutions Studio, mengatakan bahwa, untuk 20 video, Synthesia "memotong waktu produksi hingga 50%" dan "memungkinkan pelokalan dengan perkiraan penghematan biaya hingga $5,500."
Perusahaan software lain, raksasa Jerman senilai $360 miliar SAP, menggunakan video Synthesia di seluruh proses penjualan dan pemasarannya. "Kami melihat Synthesia bukan hanya sebagai alat pelatihan, tetapi sebagai platform komunikasi," tulis Andrew Steane, VP kantor manajemen bisnis untuk SAP Amerika Utara.
Untuk Mondelēz International—pemilik banyak merek makanan ringan seperti Oreo, Cadbury, Ritz, dan Sour Patch Kids—Synthesia telah menjadi solusi untuk masalah sebesar gunungan PDF.
"Jika saya bilang bahwa saya akan mengirimkan Anda artikel bantuan PDF yang panjangnya tiga halaman dengan beberapa tangkapan layar, Anda akan membacanya, kan?" kata Geoffrey Wright, global solution owner untuk AI generatif dan pengalaman digital. Kalau Anda tidak bisa menebak, dia sedang sarkastik. "Saya telah menanyai orang secara internal, tanya: Seberapa besar kemungkinan mereka membaca artikel yang saya kirim, jika itu tidak penting untuk pekerjaan? Seperti penting-misi, saya-tidak-mau-tangan-saya-terbakar-di-oven penting. Saya pikir satu orang bilang mungkin dan 99 orang lainnya bilang, tidak, terlalu sibuk. Jadi, bagi saya, Synthesia adalah cara yang bagus untuk menyiapkan pitch atau lelucon untuk mendapatkan perhatian seseorang dalam lima detik."
Tahun ini saja, Mondelēz telah membuat 30,000 video dengan Synthesia, kata Wright.
Bahaya dari avatar digital
Synthesia juga punya masalah dan kontroversi yang menjadi ciri dari semua perusahaan video AI generatif. Pada tahun 2023, misalnya, teknologinya digunakan oleh klien di Venezuela untuk memproduksi video propaganda negara, di mana avatar dibuat untuk meniru penyiar berita Barat; episode itu mengkristalkan kekhawatiran atas disinformasi politik. Synthesia melarang pelanggan itu, sambil secara signifikan memperkuat kebijakan dan sistem moderasi seputar konten berita dan politik setelahnya, dan terus melakukannya di tahun-tahun sejak itu.
Perusahaan ini adalah bagian dari wacana yang lebih luas tentang AI dan potensi kehilangan pekerjaan: Apakah lebih banyak video Synthesia berarti lebih sedikit pekerjaan untuk produser video profesional asli, misalnya? Dan seperti halnya untuk semua perusahaan media generatif, Synthesia telah menarik kekhawatiran dari aktor tentang bagaimana kemiripan mereka dapat digunakan jika mereka bekerja dengan platform tersebut. Synthesia, tahun ini, mengambil langkah untuk mengkompensasi aktor yang bekerja dengan mereka tidak hanya dengan uang tunai, mengumumkan dana ekuitas $1 juta yang memberikan saham perusahaan kepada aktor yang bekerja untuk membuat avatar AI. Para aktor itu akan memegang kepentingan finansial langsung di Synthesia seiring perusahaan tumbuh dan perusahaan mengatakan bahwa program itu, sama seperti hal lainnya, membantu membangun dialog jangka panjang dengan para aktor.
Synthesia beroperasi pada kerangka kerja yang Riparbelli sebut "tiga C"—consent (persetujuan), control (kendali), dan collaboration (kolaborasi), menambahkan bahwa perusahaan tidak membuat avatar seseorang tanpa persetujuan eksplisit mereka, titik. "Ada pemain lain di bidang ini yang akan membuat video lucu tentang selebriti, bukan untuk tujuan misinformasi, tapi untuk mendapatkan momen viral," katanya. "Itu, misalnya, sesuatu yang kami putuskan untuk tidak pernah lakukan. Kami tidak menghidupkan orang mati. Kami menarik garis: Jika orangnya tidak bisa memberikan persetujuan eksplisit, kami tidak melakukannya. Jadi, ketika Anda membuat avatar di platform ini, Anda tidak bisa mengunggah rekaman seseorang yang Anda temukan di internet. Itu harus Anda sendiri."
Perusahaan ini juga mengambil kendali serius atas jenis konten yang diizinkan dibuat di situsnya, dan bekerja aktif dengan pemerintah dan regulator. Calon pelanggan mana pun yang bukan perusahaan yang dapat diidentifikasi, ditolak oleh Synthesia.
"Kami bilang tidak untuk beberapa bisnis," kata Riparbelli. "Jika Anda bekerja dengan perusahaan besar, mereka tidak ingin bekerja dengan perusahaan kecil yang sembunyi-sembunyi, di mana suatu hari mereka menjual kontrak perusahaan besar, hari berikutnya mereka membuat deepfake CEO Anda untuk momen viral."
Wright dari Mondelēz mengevaluasi seluruh pasar produk video generatif setiap enam bulan, dan dia menunjukkan bahwa Synthesia memiliki pesaing serius dari kompetitor yang didanai ventura seperti HeyGen, Colossyan, dan Hour One (baru-baru ini diakuisisi oleh Wix). Tapi meskipun proses evaluasi ulang yang semi-konstan ini, Mondelēz telah menggunakan Synthesia selama tiga tahun terakhir. Mengapa?
"Mereka yang terbaik untuk perusahaan," kata Wright, karena Synthesia memiliki penanganan yang unik dan terampil pada protokol keamanan dan data yang dibutuhkan bisnis terbesar, tambahnya.
Sekitar 24 jam setelah sesi rekaman saya, saya buka lagi website Synthesia untuk melihat avatar saya. Saya virtual tidak se-ngeri yang saya kira—ini aneh sama seperti melihat diri sendiri di panggilan video. Versi digital saya ini punya beberapa mikro-ekspresi, dan suara yang halus yang tidak bisa disangkal berasal dari suara saya.
"Hai, saya avatar Synthesia Anda," ciptaan baru saya memberitahu saya. "Tahukah Anda saya berbicara banyak bahasa lain?"