Google telah menggunakan model kecerdasan buatan baru bernama Lumiere untuk generasi video. Model ini menggunakan metode baru yang disebut Space-Time-U-Net (STUNet) untuk menentukan lokasi objek dalam video (ruang) dan bagaimana objek tersebut bergerak dan berubah seiring waktu (waktu). Metode ini memungkinkan Lumiere untuk membuat video dalam satu proses tanpa perlu menggabungkan beberapa frame kecil secara terpisah.
Lumiere dimulai dengan menciptakan frame dasar dari prompt yang diberikan. Kemudian, menggunakan kerangka kerja STUNet untuk memperkirakan pergerakan objek dalam frame tersebut sehingga dapat menciptakan lebih banyak frame yang saling terhubung dan menghasilkan gerakan yang mulus. Lumiere juga menghasilkan 80 frame dibandingkan dengan 25 frame dari Stable Video Diffusion.
Meskipun saya lebih cenderung menjadi seorang reporter teks daripada seorang profesional video, tetapi video sizzle yang dipublikasikan oleh Google, bersama dengan makalah ilmiah pra-cetak, menunjukkan bahwa alat generasi dan pengeditan video berbasis kecerdasan buatan telah berkembang dari tingkat yang tidak realistis menjadi mendekati realistis dalam beberapa tahun terakhir. Selain itu, ini juga menegaskan bahwa teknologi Google telah bersaing dengan kompetitor seperti Runway, Stable Video Diffusion, atau Emu milik Meta. Runway, salah satu platform teks ke video yang pertama kali hadir di pasar massal, merilis Runway Gen-2 pada Maret tahun lalu dan mulai menawarkan video yang terlihat lebih realistis. Namun, video dari Runway sulit untuk menggambarkan gerakan dengan baik.
Google dengan baik hati telah menyediakan klip dan prompt di situs Lumiere, yang memungkinkan saya untuk memasukkan prompt yang sama melalui Runway untuk dibandingkan. Berikut adalah hasilnya:
Ya, beberapa klip yang disajikan memiliki sedikit kebuatan buatan, terutama jika diperhatikan dengan seksama tekstur kulit atau jika adegan tersebut lebih atmosferik. Tetapi lihatlah kura-kura itu! Gerakannya seperti kura-kura yang sebenarnya berada di dalam air! Terlihat seperti kura-kura asli! Saya mengirimkan video perkenalan Lumiere ke seorang teman yang merupakan seorang editor video profesional. Meskipun dia menunjukkan bahwa “Anda jelas dapat melihat bahwa itu tidak sepenuhnya nyata,” dia menganggapnya mengesankan bahwa jika saya tidak memberitahunya bahwa itu adalah kecerdasan buatan, dia akan berpikir itu adalah CGI. Dia juga berkata: “Apakah ini akan menggantikan pekerjaan saya, bukan?”
Model lainnya menggabungkan video dari frame kunci yang sudah ada, sedangkan STUNet memungkinkan Lumiere fokus pada pergerakan itu sendiri berdasarkan di mana konten yang dihasilkan seharusnya berada pada waktu tertentu dalam video.
Google belum menjadi pemain besar dalam kategori teks ke video, tetapi perlahan-lahan telah merilis model kecerdasan buatan yang lebih canggih dan fokus pada multimodalitas. Model bahasa besar Gemini-nya nantinya akan membawa generasi gambar ke Bard. Lumiere belum tersedia untuk pengujian, tetapi ini menunjukkan kemampuan Google untuk mengembangkan platform video kecerdasan buatan yang sebanding dengan – bahkan agak lebih baik dari – generator video kecerdasan buatan yang umumnya tersedia seperti Runway dan Pika. Dan sebagai pengingat, ini adalah kemajuan Google dalam video kecerdasan buatan dua tahun yang lalu.
Selain generasi teks ke video, Lumiere juga akan memungkinkan generasi gambar ke video, generasi dengan gaya tertentu, yang memungkinkan pengguna membuat video dengan gaya yang spesifik, cinemagraphs untuk menganimasikan hanya sebagian dari video, dan inpainting untuk mengubah warna atau pola area tertentu dalam video.
Namun, dalam makalah Lumiere Google, dicatat bahwa “ada risiko penyalahgunaan dalam menciptakan konten palsu atau berbahaya dengan teknologi kami, dan kami percaya bahwa sangat penting untuk mengembangkan dan menerapkan alat-alat untuk mendeteksi bias dan kasus penggunaan jahat guna memastikan penggunaan yang aman dan adil.” Para penulis makalah tidak menjelaskan bagaimana hal ini dapat dicapai.