Sora dari OpenAI Mengubah Perintah AI Menjadi Video Fotorealistik

Kita sudah tahu bahwa chatbot OpenAI bisa lulus ujian pengacara tanpa perlu kuliah hukum. Sekarang, tepat pada waktu Oscar, aplikasi baru OpenAI yang bernama Sora berharap dapat menguasai perfilman tanpa harus kuliah film. Saat ini masih dalam tahap produk penelitian, Sora akan diberikan kepada beberapa kreator terpilih dan sejumlah ahli keamanan yang akan melakukannya uji merah untuk mengidentifikasi kerentanan keamanan. OpenAI berencana untuk membuatnya tersedia bagi semua calon sutradara pada waktu yang belum ditentukan, tetapi mereka memutuskan untuk memberikan pratinjau terlebih dahulu.

Perusahaan lain, mulai dari raksasa seperti Google hingga startup seperti Runway, telah mengungkapkan proyek kecerdasan buatan yang mengubah teks menjadi video. Namun, OpenAI mengatakan bahwa Sora memiliki keunggulan dalam fotorealisme yang mencolok—sesuatu yang tidak saya temukan pada pesaingnya—dan kemampuannya menghasilkan klip yang lebih panjang daripada model-model lain yang umumnya hanya menghasilkan klip singkat, hingga satu menit. Para peneliti yang saya temui tidak mengungkapkan berapa lama waktu yang dibutuhkan untuk merender video-video tersebut, tetapi ketika ditanya, mereka menggambarkannya sebagai waktu yang lebih sebentar daripada “berjalan untuk membeli burrito” dan tidak sepanjang “berlibur beberapa hari”. Jika contoh-contoh yang saya lihat ini dapat dipercaya, maka usaha ini sebanding dengan waktu yang dikeluarkan.

OpenAI tidak membiarkan saya memasukkan permintaan saya sendiri, tetapi mereka membagikan empat contoh kekuatan Sora. (Tidak ada yang mencapai batas satu menit yang diklaim; yang terpanjang adalah 17 detik.) Yang pertama berasal dari permintaan rinci yang terdengar seperti pengaturan skenario penulis naskah yang obsesif: “Kota Tokyo yang indah dan bersalju penuh dengan keramaian. Kamera bergerak melalui jalanan kota yang ramai, mengikuti beberapa orang yang menikmati cuaca salju yang indah dan berbelanja di kios-kios terdekat. Kelopak sakura yang indah terbang bersama angin bersama dengan salju.”

MEMBACA Penyelamatan Dramatis Bayi Berusia 10 Bulan yang Selamat dari Serangan Udara Israel di Rafah yang Menewaskan Setidaknya 20 Orang

Hasilnya adalah pandangan yang meyakinkan tentang apa yang jelas-jelas Tokyo, pada saat ajaib ketika salju dan bunga sakura berdampingan. Kamera virtual, seolah-olah terpasang pada sebuah drone, mengikuti sepasang kekasih yang perlahan-lahan berjalan melalui jalan. Salah satu pejalan kaki yang lewat memakai masker. Mobil-mobil berlalu di jalan raya tepi sungai di sebelah kiri mereka, dan di sebelah kanan pembeli masuk dan keluar dari deretan toko kecil.

Tentu saja, tidak sempurna. Hanya setelah menonton klip tersebut beberapa kali, Anda menyadari bahwa karakter utama—sepasang kekasih yang berjalan di trotoar berlapis salju—akan menghadapi dilema jika kamera virtual terus berjalan. Trotoar yang mereka tempati tampaknya berakhir; mereka akan harus melangkahi pagar pembatas ke jalur berjalan paralel yang aneh di sebelah kanan mereka. Meskipun ada sedikit cacat ini, contoh Tokyo ini adalah sebuah pencapaian luar biasa dalam membangun dunia. Di masa depan, para perancang produksi akan mendiskusikan apakah ini adalah mitra yang kuat atau pembunuh pekerjaan. Juga, orang-orang dalam video ini—yang sepenuhnya dihasilkan oleh jaringan syaraf digital—tidak ditampilkan dalam jarak dekat, dan mereka tidak menunjukkan emosi apa pun. Namun, tim Sora mengatakan bahwa dalam contoh-contoh lain, mereka berhasil menciptakan aktor palsu yang menunjukkan emosi nyata.

Klip-klip lainnya juga mengesankan, terutama salah satunya yang meminta “sebuah adegan animasi monster berbulu pendek yang berlutut di samping lilin merah,” beserta beberapa petunjuk panggung yang rinci (“mata lebar dan mulut terbuka”) dan deskripsi suasana yang diinginkan. Sora menghasilkan makhluk ala Pixar yang tampaknya memiliki DNA dari Furby, Gremlin, dan Sully di Monsters, Inc. Saya ingat ketika film terakhir tersebut dirilis, Pixar sangat menekankan seberapa sulitnya menciptakan tekstur yang sangat kompleks dari bulu monster saat makhluk tersebut bergerak. Butuh berbulan-bulan bagi para penyihir Pixar untuk mendapatkannya dengan benar. Mesin teks-ke-video baru OpenAI… hanya melakukannya.

MEMBACA Berhenti Pakai ChatGPT dengan Pengaturan Baku: 7 Penyesuaian untuk Mengubahnya Menjadi Alat Profesional

“Ini belajar tentang geometri 3D dan konsistensi,” kata Tim Brooks, seorang ilmuwan peneliti dalam proyek ini, tentang pencapaian tersebut. “Kami tidak menyematkannya—semuanya muncul secara alami dari melihat banyak data.”

Meskipun adegan-adegan tersebut tentu saja mengesankan, kemampuan Sora yang paling mengejutkan adalah kemampuannya dalam hal-hal yang tidak dilatih. Ditenagai oleh versi model difusi yang digunakan oleh generator gambar Dalle-3 OpenAI serta mesin berbasis transformer GPT-4, Sora tidak hanya menghasilkan video sesuai permintaan, tetapi melakukannya dengan cara yang menunjukkan pemahaman yang muncul dari tata bahasa sinematik.

Itu berarti memiliki keahlian dalam bercerita. Dalam video lain yang dibuat berdasarkan permintaan untuk “dunia koral yang terbuat dari kertas yang indah, penuh dengan ikan berwarna dan makhluk laut.” Bill Peebles, seorang peneliti lain dalam proyek ini, mencatat bahwa Sora menciptakan momentum naratif melalui sudut pandang kamera dan timing-nya. “Ada beberapa pergantian shot—ini bukan hasil penyambungan gambar, tetapi dihasilkan oleh model dalam satu kali proses,” katanya. “Kami tidak memberitahunya untuk melakukannya, itu dilakukannya secara otomatis.”

Pada contoh lain yang tidak saya lihat, Sora diminta untuk memberikan tur di kebun binatang. “Dimulai dengan nama kebun binatang yang tertera pada tanda besar, perlahan bergerak ke bawah, dan kemudian ada beberapa pergantian shot untuk menunjukkan hewan-hewan yang tinggal di kebun binatang,” kata Peebles, “Itu dilakukan dengan cara yang bagus dan sinematik yang tidak secara eksplisit diperintahkan.”

Salah satu fitur dalam Sora yang tidak ditampilkan oleh tim OpenAI, dan mungkin tidak akan dirilis dalam waktu yang lama, adalah kemampuan untuk menghasilkan video dari satu gambar atau urutan frame. “Ini akan menjadi cara lain yang sangat keren untuk meningkatkan kemampuan bercerita,” kata Brooks. “Anda dapat menggambar persis apa yang ada di pikiran Anda dan kemudian menghidupkannya dalam animasi.” OpenAI menyadari bahwa fitur ini juga berpotensi menghasilkan deepfake dan informasi yang salah. “Kami akan sangat berhati-hati dengan semua implikasi keamanan untuk ini,” tambah Peebles.

MEMBACA Apple Tiba-tiba Turunkan Harga AirPods Max di Bawah Harga Black Friday untuk Semua, Bukan Hanya Prime Members