Model AI VLOGGER dari Google dapat menghasilkan avatar video dari gambar – apa yang bisa salah?

Model AI VLOGGER dari Google dapat menciptakan avatar video dari gambar – apa yang bisa salah?

VLOGGER dapat mengambil satu foto seseorang dan membuat klip dalam definisi tinggi dan berbagai panjang, dengan ekspresi wajah dan gerakan tubuh yang akurat, hingga kedipan, melebihi jenis perangkat lunak “talking head” sebelumnya. Komunitas Kecerdasan Buatan (AI) telah sangat mahir dalam menghasilkan gambar bergerak palsu – lihatlah Sora dari OpenAI, yang diperkenalkan bulan lalu, dengan animasi imajiner yang mulus – sehingga kita harus bertanya pada diri sendiri pertanyaan intelektual dan praktis: apa yang seharusnya kita lakukan dengan semua video ini?

Juga: OpenAI memperkenalkan model teks-ke-video dan hasilnya mengagumkan. Lihat sendiri. Minggu ini, peneliti Google Enric Corona dan rekan-rekannya menjawab: kendalikan mereka menggunakan alat VLOGGER kami. VLOGGER dapat menghasilkan video resolusi tinggi dari orang-orang yang berbicara berdasarkan satu foto. Lebih penting lagi, VLOGGER dapat menganimasikan video sesuai dengan sampel pidato, yang berarti teknologi ini dapat menghasilkan video sebagai gambaran yang terkendali dari seseorang – sebuah “avatar” yang sangat realistis.

Alat ini bisa memungkinkan berbagai jenis kreasi. Pada level paling sederhana, tim Corona menyarankan VLOGGER dapat memiliki dampak besar pada avatar bantuan teknis karena manusia sintetis yang terlihat lebih realistis dapat “mengembangkan empati.” Mereka menyarankan bahwa teknologi tersebut dapat “memungkinkan kasus penggunaan baru sepenuhnya, seperti komunikasi online yang ditingkatkan, pendidikan, atau asisten virtual yang dipersonalisasi.”

VLOGGER juga dapat membawa kita ke garis depan baru dalam deepfakes, kemiripan yang terlihat nyata yang mengatakan dan melakukan hal-hal yang sebenarnya tidak pernah dilakukan oleh orang tersebut. Tim Corona bermaksud untuk memberikan pertimbangan terhadap implikasi sosial dari VLOGGER dalam materi pendukung tambahan. Namun, materi tersebut tidak tersedia di halaman GitHub proyek tersebut. ZDNET menghubungi Corona untuk menanyakan tentang materi pendukung tersebut tetapi belum menerima balasan hingga saat ini.

Seperti yang dijelaskan dalam makalah formal, “VLOGGER: Multimodal Diffusion for Embodied Avatar Synthesis”, tim Corona bertujuan untuk melampaui ketidakakuratan dalam keadaan seni terbaru dalam avatar. “Pembuatan video realistis manusia masih kompleks dan penuh dengan artefak,” tulis tim Corona.

MEMBACA  Kamera Keamanan Rumah Terbaik untuk Luar Ruangan Tahun 2024

Tim tersebut mencatat bahwa avatar video yang ada sering memotong tubuh dan tangan, hanya menampilkan wajah. VLOGGER dapat menampilkan seluruh tubuh bersama gerakan tangan. Alat lain biasanya memiliki variasi terbatas dalam ekspresi wajah atau pose, menawarkan sinkronisasi bibir yang hanya mendasar. VLOGGER dapat menghasilkan “video resolusi tinggi dari gerakan kepala dan tubuh atas […] menampilkan ekspresi wajah dan gerakan yang sangat beragam” dan merupakan “pendekatan pertama untuk menghasilkan manusia yang berbicara dan bergerak berdasarkan masukan pidato.”

Seperti yang dijelaskan tim peneliti, “itulah otomatisasi dan realisme perilaku yang kami tuju dalam karya ini: VLOGGER adalah antarmuka multimodal ke agen percakapan yang dimiliki, dilengkapi dengan representasi audio dan visual animasi, menampilkan ekspresi wajah yang kompleks dan tingkat gerakan tubuh yang semakin meningkat, dirancang untuk mendukung percakapan alami dengan pengguna manusia.” Berdasarkan satu foto, kiri, perangkat lunak VLOGGER memprediksi frame video, kanan, yang seharusnya menyertai setiap saat dari file suara seseorang yang berbicara, menggunakan proses yang dikenal sebagai “difusi”, dan kemudian menghasilkan frame video tersebut dalam kualitas definisi tinggi.

VLOGGER menggabungkan beberapa tren terbaru dalam pembelajaran mendalam. Multimodalitas menyatukan banyak mode alat AI yang dapat menyerap dan mensintesis, termasuk teks dan audio, dan gambar dan video. Model bahasa besar seperti GPT-4 OpenAI memungkinkan penggunaan bahasa alami sebagai masukan untuk menggerakkan tindakan-tindakan berbagai jenis, baik itu menciptakan paragraf teks, lagu, atau gambar.

Peneliti juga telah menemukan berbagai cara untuk membuat gambar dan video yang mirip kehidupan belakangan ini dengan menyempurnakan “difusi.” Istilah ini berasal dari fisika molekuler dan mengacu pada bagaimana, ketika suhu naik, partikel materi berpindah dari sangat terkonsentrasi di suatu area menjadi lebih tersebar. Secara analogi, potongan informasi digital bisa dianggap sebagai “menyebar” semakin tidak koheren dengan noise digital.

Difusi AI memasukkan noise ke dalam gambar dan merekonstruksi gambar asli untuk melatih jaringan saraf untuk menemukan aturan-aturan dengan mana gambar tersebut dibuat. Difusi adalah dasar dari proses penciptaan gambar impresif dalam Stabilitas AI’s Stable Diffusion dan DALL-E OpenAI. Itulah juga bagaimana OpenAI membuat video yang mulus dalam Sora.

MEMBACA  Apple Watch Seri 10: Diperkirakan akan memiliki kehidupan baterai yang lebih baik, berkat fitur baru ini.

Untuk VLOGGER, tim Corona melatih jaringan saraf untuk mengasosiasikan audio pembicara dengan frame video individu dari pembicara tersebut. Tim tersebut menggabungkan proses difusi dalam merekonstruksi frame video dari audio menggunakan inovasi terbaru lainnya, yaitu Transformer.

Transformer menggunakan metode perhatian untuk memprediksi frame video berdasarkan frame yang terjadi di masa lalu, bersamaan dengan audio. Dengan memprediksi tindakan, jaringan saraf belajar merender gerakan tangan dan tubuh yang akurat serta ekspresi wajah, frame demi frame, selaras dengan audio.

Langkah terakhir adalah menggunakan prediksi dari jaringan saraf pertama untuk kemudian menggerakkan generasi frame video resolusi tinggi menggunakan jaringan saraf kedua yang juga menggunakan difusi. Langkah kedua ini juga merupakan titik tertinggi dalam data.

Untuk membuat gambar resolusi tinggi, tim Corona menyusun MENTOR, kumpulan data yang menampilkan 800.000 “identitas” video orang yang berbicara. MENTOR terdiri dari 2.200 jam video, yang tim klaim membuatnya menjadi “kumpulan data terbesar yang pernah digunakan sejauh ini dalam hal identitas dan panjang” dan 10 kali lebih besar dari kumpulan data yang sebanding sebelumnya.

Para penulis menemukan bahwa mereka dapat meningkatkan proses tersebut dengan langkah berikutnya yang disebut “fine-tuning.” Dengan menyajikan video penuh ke VLOGGER, setelah itu telah “mula dilatih” pada MENTOR, mereka dapat lebih realistis menangkap keunikan gerakan kepala seseorang, seperti kedipan: “Dengan menyetel ulang model difusi kami dengan lebih banyak data, pada video monokuler dari subjek, VLOGGER dapat belajar untuk menangkap identitas dengan lebih baik, misalnya ketika gambar referensi menampilkan mata yang tertutup,” proses yang tim sebut sebagai “personalisasi.”

Jaringan saraf VLOGGER adalah kombinasi dari dua jaringan saraf berbeda. Yang pertama menggunakan “perhatian tersembunyi” melalui Transformer untuk memprediksi pose apa yang harus terjadi dalam suatu frame video berdasarkan suara yang keluar dari sinyal audio yang direkam dari pembicara. Jaringan saraf kedua menggunakan difusi untuk menghasilkan urutan frame video yang konsisten menggunakan petunjuk gerakan tubuh dan ekspresi dari jaringan saraf pertama.

MEMBACA  Perselisihan rap Kendrick Lamar vs. Drake adalah bisnis besar bagi pembuat konten

Titik utama dari pendekatan ini – menghubungkan prediksi dalam satu jaringan saraf dengan gambaran resolusi tinggi, dan apa yang membuat VLOGGER provokatif – adalah bahwa program tersebut tidak hanya menghasilkan video, seperti yang dilakukan Sora. VLOGGER menghubungkan video tersebut dengan tindakan dan ekspresi yang dapat dikendalikan. Video realistisnya dapat dimanipulasi saat terjadi, seperti boneka.

“Tujuan kami adalah untuk menjembatani kesenjangan antara upaya sintesis video terbaru,” tulis tim Corona, “yang dapat menghasilkan video dinamis tanpa kontrol atas identitas atau pose, dan metode generasi gambar yang dapat dikendalikan.”

Bukan hanya VLOGGER bisa menjadi avatar yang dipandu suara, tetapi juga bisa memimpin ke fungsi pengeditan, seperti mengubah mulut atau mata subjek yang sedang berbicara. Sebagai contoh, seseorang virtual yang sering berkedip dalam video bisa diubah menjadi berkedip sedikit atau sama sekali tidak sama sekali. Cara berbicara dengan mulut terbuka lebar bisa diubah menjadi gerakan bibir yang lebih diskrit. Setelah mencapai cara untuk mengendalikan video resolusi tinggi melalui isyarat suara, VLOGGER membuka jalan untuk manipulasi, seperti mengubah gerakan bibir dari pembicara di setiap rentetan video menjadi berbeda dari video sumber aslinya.

Setelah mencapai standar baru dalam mensimulasikan orang, pertanyaan yang tidak dijawab oleh tim Corona adalah apa yang seharusnya dunia harapkan dari penyalahgunaan teknologi ini. Mudah untuk membayangkan kemiripan seorang tokoh politik yang mengatakan sesuatu yang benar-benar katastropik tentang, misalnya, perang nuklir yang akan segera terjadi.

Dugaan besar, tahap berikutnya dalam permainan avatar ini akan menjadi jaringan saraf yang, seperti “uji Voight-Kampff” dalam film Blade Runner, dapat membantu masyarakat mendeteksi pembicara mana yang nyata dan yang hanyalah deepfakes dengan cara yang sangat mirip kehidupan.

“Tujuan kami adalah untuk menjembatani kesenjangan antara upaya sintesis video terbaru,” tulis tim Corona, “yang dapat menghasilkan video dinamis tanpa kontrol atas identitas atau pose, dan metode generasi gambar yang dapat dikendalikan.”