Sebuah startup kecerdasan buatan OpenAI telah mengungkapkan model teks-ke-video, yang disebut Sora, yang bisa meningkatkan standar untuk apa yang mungkin dalam kecerdasan buatan generatif.
Sebagaimana halnya dengan alat teks-ke-video Lumiere milik Google, ketersediaan Sora terbatas. Berbeda dengan Lumiere, Sora dapat menghasilkan video hingga 1 menit.
Menyusul berita tentang Sora, generator suara kecerdasan buatan ElevenLabs beberapa hari kemudian mengungkapkan bahwa mereka sedang mengembangkan efek suara yang dihasilkan dari teks untuk video.
Teks-ke-video telah menjadi perlombaan senjata terbaru dalam kecerdasan buatan generatif karena OpenAI, Google, Microsoft, dan lainnya melihat ke depan dari generasi teks dan gambar dan berupaya memantapkan posisi mereka di sebuah sektor yang diproyeksikan akan mencapai pendapatan sebesar $1.3 triliun pada tahun 2032 — dan untuk memikat konsumen yang telah tertarik pada kecerdasan buatan generatif sejak ChatGPT hadir sedikit lebih dari setahun yang lalu.
Menurut sebuah postingan pada hari Kamis dari OpenAI, pembuat ChatGPT dan Dall-E, Sora akan tersedia bagi “tim merah,” atau para ahli di bidang seperti misinformasi, konten yang membenci, dan bias, yang akan “menguji model ini secara musuh,” serta seniman visual, desainer, dan pembuat film untuk mendapatkan umpan balik tambahan dari para profesional kreatif. Pengujian musuh itu akan menjadi sangat penting untuk mengatasi potensi deepfakes yang meyakinkan, sebuah area yang sangat penting untuk penggunaan kecerdasan buatan dalam membuat gambar dan video.
Selain mendapatkan umpan balik dari luar organisasi, startup kecerdasan buatan tersebut mengatakan ingin membagikan kemajuannya sekarang untuk “memberikan gambaran kepada publik tentang kemampuan kecerdasan buatan yang akan datang.”
Tonton ini: Aplikasi GPT Kustom OpenAI Melakukan Perintah Anda
05:44
Kelebihan
Salah satu hal yang mungkin membedakan Sora adalah kemampuannya untuk menafsirkan perintah yang panjang — termasuk satu contoh yang mencapai 135 kata. Video contoh yang dibagikan oleh OpenAI pada hari Kamis menunjukkan bahwa Sora dapat membuat berbagai karakter dan adegan, mulai dari orang dan hewan hingga monster berbulu, pemandangan kota, lanskap, taman zen, dan bahkan New York City yang tenggelam dalam air.
Hal ini berkat sebagian dari karya masa lalu OpenAI dengan model Dall-E dan GPT. Generator teks-ke-gambar Dall-E 3 dirilis pada bulan September. Stephen Shankland dari CNET menyebutnya “sebuah langkah besar dari Dall-E 2 dari tahun 2022.” (Model kecerdasan buatan terbaru OpenAI, GPT-4 Turbo, tiba pada bulan November.)
Khususnya, Sora meminjam teknik recaptioning dari Dall-E 3, yang menurut OpenAI menghasilkan “deskripsi yang sangat deskriptif untuk data pelatihan visual.”
“Sora mampu menghasilkan adegan kompleks dengan beberapa karakter, jenis gerakan tertentu, dan detail yang akurat dari subjek dan latar belakang,” tulis postingan tersebut. “Model tersebut tidak hanya memahami apa yang diminta pengguna dalam perintah, tetapi juga bagaimana hal-hal tersebut ada di dunia fisik.”
Video contoh yang dibagikan oleh OpenAI terlihat sangat realistis — kecuali mungkin jika wajah manusia muncul dekat atau ketika makhluk laut berenang. Selain itu, Anda mungkin sulit untuk membedakan mana yang nyata dan mana yang bukan.
Model ini juga dapat menghasilkan video dari gambar diam dan memperpanjang video yang ada atau mengisi bingkai yang hilang, mirip dengan apa yang bisa dilakukan oleh Lumiere.
“Sora berfungsi sebagai dasar bagi model yang dapat memahami dan mensimulasikan dunia nyata, sebuah kemampuan yang kami yakini akan menjadi tonggak penting untuk mencapai AGI,” tambah postingan tersebut.
AGI, atau kecerdasan buatan umum, adalah bentuk kecerdasan buatan yang lebih canggih yang lebih dekat dengan kecerdasan mirip manusia dan mencakup kemampuan untuk melakukan berbagai tugas. Meta dan DeepMind juga telah menyatakan minat mereka untuk mencapai standar ini.
Kekurangan
OpenAI mengakui bahwa Sora memiliki kelemahan, seperti kesulitan dalam menggambarkan fisika dari adegan yang kompleks dan dalam memahami sebab-akibat.
“Misalnya, seseorang mungkin menggigit sepotong kue, tetapi setelah itu, kue tersebut tidak memiliki bekas gigitan,” tulis postingan tersebut.
Dan siapa pun yang masih harus membuat huruf L dengan tangan mereka untuk mengetahui mana yang kiri, bisa sedikit lega: Sora juga bingung antara kiri dan kanan.
OpenAI tidak membagikan kapan Sora akan tersedia secara luas tetapi mencatat bahwa mereka ingin mengambil “beberapa langkah penting untuk keamanan” terlebih dahulu. Hal ini termasuk memenuhi standar keamanan yang ada di OpenAI, yang melarang kekerasan ekstrem, konten seksual, gambaran yang membenci, kemiripan selebriti, dan hak kekayaan intelektual orang lain.
“Meskipun telah dilakukan penelitian dan pengujian yang luas, kami tidak dapat memprediksi semua cara yang bermanfaat yang akan digunakan orang terhadap teknologi kami, maupun semua cara yang akan menyalahgunakannya,” tambah postingan tersebut. “Itulah mengapa kami percaya bahwa pembelajaran dari penggunaan di dunia nyata adalah komponen penting dalam menciptakan dan merilis sistem kecerdasan buatan yang semakin aman dari waktu ke waktu.”
Efek suara
Dalam sebuah kiriman blog tentang efek suara kecerdasan buatan, ElevenLabs pada hari Senin mengatakan bahwa mereka menggunakan perintah seperti “ombak pecah,” “logam bersentuhan,” “burung berkicau,” dan “mesin mobil balap” untuk membuat audio, yang mereka tumpangkan pada beberapa video kecerdasan buatan Sora untuk efek tambahan.
ElevenLabs tidak membagikan tanggal rilis untuk alat generasi teks-ke-suara mereka, tetapi postingan tersebut mengatakan, “Kami sangat senang dengan kegembiraan dan dukungan dari komunitas dan tidak sabar untuk menyediakannya kepada Anda.”