Segala Risiko yang Mungkin Terjadi Saat Membuat Video dengan Sora

Setelah ada kesempatan, saya langsung unduh aplikasi Sora. Saya mengunggah foto wajah—yang biasa dicium anak-anak saya sebelum tidur—dan suara saya—suara yang dipakai untuk bilang ‘sayang’ ke istri—lalu menambahkannya ke profil Sora saya. Semua ini kulakukan demi fitur "Cameo" Sora untuk membuat video konyol versi AI saya yang sedang ditembaki paintball oleh 100 orang lansia di panti jompo.

Sebenarnya, apa yang baru saja saya lakukan? Aplikasi Sora didukung Sora 2, sebuah model AI yang, jujur saja, cukup mengagumkan. Ia bisa menghasilkan video dengan kualitas beragam, dari yang biasa-biasa saja sampai yang sangat mengerikan. Ia adalah lubang hitam energi dan data, sekaligus penyebar konten yang sangat dipertanyakan. Seperti banyak hal belakangan ini, menggunakan Sora terasa agak nakal, meski kita tak selalu tahu alasannya.

Jadi, jika Anda baru saja menghasilkan video Sora, inilah semua berita buruknya. Dengan membaca ini, Anda ingin merasa sedikit kotor dan bersalah, dan keinginan Anda adalah perintah bagi saya.

Inilah jumlah listrik yang baru saja Anda gunakan

Satu video Sora menggunakan listrik sekitar 90 watt-jam menurut CNET. Angka ini merupakan perkiraan berdasar studi penggunaan energi GPU oleh Hugging Face.

OpenAI sebenarnya belum mempublikasikan angka yang dibutuhkan untuk studi ini, sehingga jejak energi Sora harus disimpulkan dari model sejenis. Sasha Luccioni, salah satu peneliti Hugging Face yang mengerjakan studi itu, tidak senang dengan estimasi seperti di atas. Dia berkata kepada MIT Technology Review, "Kita harus berhenti mencoba merekayasa balik angka berdasarkan kabar burung," dan mendesak perusahaan seperti OpenAI untuk merilis data akurat.

Bagaimanapun, jurnalis berbeda memberikan estimasi berbeda berdasarkan data Hugging Face. Misalnya, Wall Street Journal memperkirakan antara 20 hingga 100 watt-jam.

CNET mengibaratkan estimasinya seperti menyalakan TV 65 inci selama 37 menit. The Journal membandingkan satu generasi Sora dengan memasak steak dari mentah hingga setengah matang di grill listrik luar ruangan.

Perlu beberapa klarifikasi soal isu energi ini untuk membuat Anda merasa lebih bersalah. Pertama, yang baru saya jelaskan adalah pengeluaran energi dari inference, yaitu menjalankan model sebagai respons terhadap perintah. Pelatihan aktual model Sora sendiri membutuhkan listrik dalam jumlah yang tidak diketahui, tapi pasti sangat besar. LLM GPT-4 diperkirakan membutuhkan 50 gigawatt-jam—cukup untuk menyalakan San Francisco selama 72 jam. Sora, sebagai model video, membutuhkan lebih dari itu, tapi berapa tepatnya tidak diketahui.

MEMBACA Gerhana Bulan Total Maret 2026: Waktu Menyaksikan Bulan Merah dan Namanya

Dengan sudut pandang tertentu, Anda ikut menanggung bagian dari biaya tak dikenal itu saat memilih menggunakan modelnya, bahkan sebelum Anda menghasilkan satu video pun.

Kedua, memisahkan inference dari pelatihan juga penting untuk menentukan seberapa besar rasa bersalah lingkungan yang harus Anda rasakan. Anda bisa berusaha mengabstraksikan biaya energi tinggi sebagai sesuatu yang sudah terjadi—seperti sapi dalam burger Anda yang mati berminggu-minggu lalu, dan Anda tidak bisa membatalkan kematiannya dengan memesan patty Beyond setelah duduk di restoran. Dalam artian itu, menjalankan model AI berbasis cloud lebih seperti memesan surf and turf. "Sapi" dari semua data pelatihan mungkin sudah mati. Tapi "lobster" dari perintah spesifik Anda masih hidup sampai Anda mengirim perintah itu ke "dapur" yang merupakan pusat data tempat inference terjadi.

Inilah jumlah air yang baru saja Anda gunakan:

Kita akan melakukan lebih banyak perkiraan lagi, maaf. Pusat data menggunakan air dalam jumlah besar untuk pendinginan—baik dalam sistem closed loop atau melalui penguapan. Anda tidak akan tahu pusat data mana, atau beberapa pusat data, yang terlibat dalam pembuatan video teman Anda sebagai kontestan American Idol yang menyanyikan lagu "Camptown Races" sambil kentut.

Tapi tetap saja, air yang digunakan mungkin lebih dari yang membuat Anda nyaman. CEO OpenAI Sam Altman mengklaim bahwa satu kueri teks ChatGPT mengonsumsi "sekitar seperlima belas sendok teh," dan CNET memperkirakan bahwa video memiliki biaya energi 2.000 kali lipat dari generasi teks. Jadi, perhitungan kasar jawabannya mungkin 0,17 galon, atau sekitar 22 ons cair—sedikit lebih banyak dari satu botol plastik Coke.

Dan itu jika Anda menerima perkataan Altman secara mentah-mentah. Bisa saja lebih banyak. Ditambah, pertimbangan yang sama tentang biaya pelatihan versus biaya inference yang berlaku untuk penggunaan energi juga berlaku di sini. Dengan kata lain, menggunakan Sora bukanlah pilihan yang bijak secara air.

Ada kemungkinan kecil seseorang membuat deepfake yang sangat mengerikan dari Anda.

Pengaturan privasi Cameo Sora cukup kuat—selama Anda menyadarinya dan memanfaatkannya. Pengaturan di bawah "Siapa yang dapat menggunakan ini" kurang lebih melindungi rupa Anda menjadi mainan publik, selama Anda tidak memilih pengaturan "Semua Orang," yang berarti siapa pun dapat membuat video Sora dari Anda.

MEMBACA Episode Terbaru Joe Rogan Akan Membuatmu Mempertanyakan Segala Hal Tentang Kecerdasan Buatan

Bahkan jika Anda ceroboh sampai memiliki Cameo yang tersedia untuk publik, Anda memiliki kendali tambahan di tab "Preferensi Cameo", seperti kemampuan untuk mendeskripsikan, dalam kata-kata, bagaimana Anda seharusnya muncul dalam video. Anda dapat menulis apa pun di sini, seperti "ramping, berotot, dan atletis" mungkin, atau "selalu mengupil." Dan Anda juga dapat menetapkan aturan tentang hal-hal yang tidak boleh Anda perlihatkan sedang dilakukan. Jika Anda keep kosher, misalnya, Anda dapat mengatakan bahwa Anda tidak boleh diperlihatkan sedang makan bacon.

Tetapi bahkan jika Anda tidak mengizinkan Cameo Anda digunakan oleh orang lain, Anda masih bisa merasa tenang dengan kemampuan terbuka untuk membuat pagar pembatas saat Anda membuat video tentang diri sendiri.

Namun, pagar pembatas konten umum di Sora tidak sempurna. Menurut kartu model OpenAI sendiri untuk Sora, jika seseorang memberikan perintah yang cukup keras, video yang ofensif bisa lolos.

Kartu tersebut menyebutkan tingkat keberhasilan untuk berbagai jenis filter konten dalam kisaran 95%-98%. Namun, jika hanya melihat kegagalannya, Anda mendapatkan peluang 1,6% untuk deepfake seksual, peluang 4,9% untuk video dengan kekerasan dan/atau gore, peluang 4,48% untuk sesuatu yang disebut "persuasi politik yang melanggar," dan peluang 3,18% untuk ekstremisme atau kebencian. Peluang ini dihitung dari "ribuan prompt adversarial yang dikumpulkan melalui red-teaming yang ditargetkan"—dengan kata lain, sengaja mencoba menerobos pagar pembatas dengan prompt yang melanggar aturan.

Jadi, peluang seseorang membuat deepfake seksual atau kekerasan dari Anda tidak besar, tetapi OpenAI (mungkin dengan bijak) tidak pernah bilang tidak mungkin.

Seseorang mungkin membuat video di mana Anda menyentuh kotoran.

Dalam tes saya, filter konten Sora umumnya bekerja seperti yang diiklankan, dan saya tidak pernah mengonfirmasi apa yang dikatakan kartu model tentang kegagalannya. Saya tidak dengan susah payah membuat 100 prompt berbeda untuk mencoba menipu Sora agar menghasilkan konten seksual. Jika Anda memintanya untuk cameo diri Anda telanjang, Anda akan mendapat pesan "Pelanggaran Konten" sebagai pengganti video Anda.

Namun, beberapa konten yang berpotensi menyinggung diawasi dengan sangat longgar sehingga sama sekali tidak disaring. Khususnya, Sora sepertinya tidak peduli dengan konten skatologi, dan akan menghasilkan materi semacam itu tanpa pagar pembatas sama sekali, selama tidak melanggar kebijakan konten lainnya seperti seputar seksualitas dan ketelanjangan.

MEMBACA Apakah Willdan Group (WLDN) Investasi Jangka Panjang yang Menjanjikan?

Jadi ya, dalam tes saya, Sora menghasilkan video Cameo seseorang yang berinteraksi dengan kotoran, termasuk mengambil tinja dari toilet dengan tangan telanjang. Saya tidak akan menanamkan video di sini sebagai demonstrasi karena alasan yang jelas, tetapi Anda dapat mengujinya sendiri. Tidak diperlukan trik atau prompt engineering apa pun.

Dalam pengalaman saya, model generasi gambar AI sebelumnya memiliki langkah-langkah untuk mencegah hal semacam ini, termasuk versi Bing dari generator gambar OpenAI, Dall-E, tetapi filter itu tampaknya hilang di aplikasi Sora. Saya pikir itu belum tentu skandal, tapi itu jorok!

Gizmodo telah meminta OpenAI untuk berkomentar tentang hal ini, dan akan memperbarui jika ada tanggapan.

Video lucu Anda mungkin bisa menjadi hoax viral orang lain.

Sora 2 telah membuka alam semesta hoax yang luas dan tak terbatas. Anda, konsumen konten yang cerdas dan melek internet, tidak akan percaya bahwa video viral di bawah ini bisa nyata. Video itu menunjukkan rekaman yang terlihat spontan, seolah-olah direkam dari luar Gedung Putih. Dalam audio yang terdengar seperti percakapan telepon yang terdengar, Donald Trump yang dihasilkan AI mengatakan kepada pihak tak dikenal untuk tidak merilis berkas Epstein, dan berteriak "Jangan biarkan itu keluar. Jika saya jatuh, saya akan membawa semua kalian bersama saya."

Hanya dengan melihat komentar Instagram saja, beberapa orang tampaknya percaya ini nyata.

Pembuat video viral tersebut tidak pernah mengklaim itu nyata, dan memberitahu Snopes, yang mengonfirmasi bahwa video itu dibuat oleh Sora, bahwa video itu "sepenuhnya dihasilkan AI" dan dibuat "hanya untuk eksperimen artistik dan komentar sosial." Cerita yang masuk akal. Itu cukup jelas dibuat untuk clout dan visibilitas media sosial.

Tetapi jika Anda memposting video secara publik di Sora, pengguna lain dapat mengunduhnya dan melakukan apa pun yang mereka inginkan—dan itu termasuk mempostingnya di jejaring sosial lain dan berpura-pura itu nyata. OpenAI dengan sangat sadar menjadikan Sora tempat di mana pengguna dapat doomscroll tanpa batas. Begitu Anda menaruh sepotong konten di tempat seperti itu, konteks tidak lagi penting, dan Anda tidak punya cara untuk mengontrol apa yang terjadi selanjutnya.