Lonjakan Deepfake di 2025—Inilah yang Akan Hadir Selanjutnya

Artikel ini awalnya terbit di The Conversation.

Sepanjang tahun 2025, deepfake mengalami peningkatan yang sangat dramatis. Wajah, suara, dan penampilan penuh tubuh yang dihasilkan AI untuk meniru orang sungguhan meningkat kualitasnya jauh melampaui perkiraan banyak pakar beberapa tahun silam. Teknologi ini juga kian sering dipakai untuk menipu orang.

Untuk banyak skenario sehari-hari — terutama panggilan video beresolusi rendah dan media yang dibagikan di platform sosial — realismenya kini sudah cukup tinggi untuk secara konsisten mengelabui penonton yang bukan ahli. Secara praktis, media sintetis telah menjadi tidak terbedakan dari rekaman autentik bagi orang biasa dan, dalam beberapa kasus, bahkan bagi institusi.

Dan lonjakan ini tidak terbatas pada kualitas. Volume deepfake telah tumbuh secara eksplosif: Perusahaan keamanan siber DeepStrike memperkirakan peningkatan dari sekitar 500.000 deepfake daring pada 2023 menjadi sekitar 8 juta pada 2025, dengan pertumbuhan tahunan mendekati 900%.

Saya seorang ilmuwan komputer yang meneliti deepfake dan media sintetis lainnya. Dari sudut pandang saya, situasi ini kemungkinan akan memburuk pada 2026 seiring deepfake menjadi “pemain sintetis” yang mampu bereaksi terhadap orang dalam waktu nyata. Kini, hampir siapa pun dapat membuat video deepfake.

Peningkatan yang Dramatis

Beberapa pergeseran teknis mendasari eskalasi dramatis ini. Pertama, realisme video membuat lompatan signifikan berkat model generasi video yang dirancang khusus untuk mempertahankan konsistensi temporal. Model ini menghasilkan video dengan gerakan yang koheren, identitas konsisten dari orang yang digambarkan, dan konten yang masuk akal dari satu frame ke frame berikutnya. Model-model ini memisahkan informasi terkait representasi identitas seseorang dari informasi tentang gerakan sehingga gerakan yang sama dapat dipetakan ke identitas berbeda, atau identitas yang sama dapat memiliki berbagai jenis gerakan.

MEMBACA  Teaser 'Orang-Orang yang Kita Temui Saat Liburan': Novel roman favorit Emily Henry segera tayang di Netflix

Model ini menghasilkan wajah yang stabil dan koheren tanpa kedip, distorsi, atau penyimpangan struktural di sekitar mata dan garis rahang yang dulu menjadi bukti forensik andalan deepfake.

Kedua, kloning suara telah melampaui apa yang saya sebut “ambang batas tak terbedakan”. Kini, beberapa detik audio sudah cukup untuk menghasilkan klon yang meyakinkan — lengkap dengan intonasi alami, ritme, penekanan, emosi, jeda, dan noise pernapasan. Kemampuan ini sudah memicu penipuan dalam skala besar. Beberapa retailer besar melaporkan menerima lebih dari 1.000 panggilan penipuan hasil AI per hari. Tanda-tanda perseptual yang dulu mengungkapkan suara sintetis sebagian besar telah hilang.

Ketiga, alat-alat konsumen telah mendorong penghalang teknis hampir ke nol. Peningkatan dari Sora 2 milik OpenAI dan Veo 3 milik Google, serta gelombang startup, berarti siapa pun dapat mendeskripsikan sebuah ide, meminta model bahasa besar seperti ChatGPT OpenAI atau Gemini Google menyusun naskah, dan menghasilkan media audio-visual yang apik dalam hitungan menit. Agen AI dapat mengotomatisasi seluruh proses. Kapasitas untuk membuat deepfake yang koheren dan berbasis alur cerita dalam skala besar secara efektif telah terdemokratisasi.

Kombinasi dari kuantitas yang melonjak dan persona yang hampir tak terbedakan dari manusia sungguhan ini menciptakan tantangan serius untuk mendeteksi deepfake, terutama di lingkungan media di mana perhatian orang terfragmentasi dan konten bergerak lebih cepat daripada kemampuan verifikasi. Sudah terjadi bahaya nyata — dari misinformasi hingga pelecehan terarah dan penipuan keuangan — yang dimungkinkan oleh deepfake yang menyebar sebelum orang sempat menyadari apa yang terjadi.

Masa Depan adalah Waktu Nyata

Ke depan, trajektori untuk tahun depan jelas: Deepfake bergerak menuju sintesis waktu nyata yang dapat menghasilkan video yang sangat menyerupai nuansa penampilan manusia, memudahkan mereka menghindari sistem deteksi. Batasannya bergeser dari realisme visual statis ke koherensi temporal dan perilaku: model yang menghasilkan konten langsung atau hampir langsung alih-alih klip yang dirender sebelumnya.

MEMBACA  Pada tahun 2024, Kecerdasan Buatan akan Memicu Renaisans Permainan Video Indie (dan Mimpi Buruk)

Pemodelan identitas sedang menyatu ke dalam sistem terpadu yang menangkap bukan hanya bagaimana rupa seseorang, tetapi bagaimana mereka bergerak, bersuara, dan berbicara dalam berbagai konteks. Hasilnya melampaui “ini mirip orang X,” menjadi “ini berperilaku seperti orang X seiring waktu.” Saya memperkirakan seluruh peserta panggilan video akan disintesis secara real time; aktor yang digerakkan AI yang interaktif dengan wajah, suara, dan kebiasaan yang beradaptasi instan terhadap sebuah perintah; serta penipu yang menggunakan avatar responsif alih-alih video tetap.

Seiring kemampuan ini matang, kesenjangan perseptual antara media manusia sintetis dan autentik akan terus menyempit. Garis pertahanan yang berarti akan bergeser menjauhi penilaian manusia. Sebaliknya, itu akan bergantung pada perlindungan tingkat infrastruktur. Ini termasuk provenance aman seperti media yang ditandatangani secara kriptografis, dan alat konten AI yang menggunakan spesifikasi Koalisi untuk Provenance dan Keaslian Konten. Itu juga akan bergantung pada alat forensik multimodal seperti Deepfake-o-Meter dari lab saya.

Sekadar melihat lebih teliti pada piksel tidak akan lagi memadai.

Siwei Lyu, Profesor Ilmu Komputer dan Teknik; Direktur, UB Media Forensic Lab, University at Buffalo

Artikel ini diterbitkan ulang dari The Conversation di bawah lisensi Creative Commons. Baca artikel aslinya.

Tinggalkan komentar