2026: Tahun Anda Tertipu Deepfake, Kata Peneliti. Kloning Suara Telah Melampaui ‘Ambang Batas Tak Terbedakan’.

Sepanjang tahun 2025, deepfake mengalami peningkatan yang dramatis. Wajah, suara, dan penampilan seluruh tubuh yang dihasilkan AI untuk meniru orang asli menjadi jauh lebih bagus kualitasnya daripada yang bahkan para ahli perkirakan beberapa tahun lalu. Teknologi ini juga semakin sering dipakai untuk menipu orang.

Untuk banyak situasi sehari-hari — terutama panggilan video beresolusi rendah dan media yang dibagikan di platform media sosial — realisme mereka sekarang sudah cukup tinggi untuk memperdaya penonton yang bukan ahlinya. Secara praktis, media sintetis sudah tidak bisa dibedakan dari rekaman asli bagi orang biasa dan, dalam beberapa kasus, bahkan bagi institusi.

Dan lonjakan ini tidak terbatas pada kualitas saja. Volume deepfake telah berkembang pesat: Perusahaan keamanan siber DeepStrike memperkirakan peningkatan dari sekitar 500.000 deepfake online di tahun 2023 menjadi sekitar 8 juta di tahun 2025, dengan pertumbuhan tahunan mendekati 900%.

Saya seorang ilmuwan komputer yang meneliti deepfake dan media sintetis lainnya. Dari sudut pandang saya, situasi ini kemungkinan akan memburuk di tahun 2026 seiring deepfake menjadi ‘pemain sintetis’ yang mampu bereaksi terhadap orang secara langsung. Sekarang, hampir semua orang bisa membuat video deepfake.

Peningkatan yang Dramatis

Beberapa perubahan teknis mendasari peningkatan dramatis ini. Pertama, realisme video membuat lompatan signifikan berkat model generasi video yang dirancang khusus untuk menjaga konsistensi temporal. Model ini menghasilkan video dengan gerakan yang koheren, identitas orang yang konsisten, dan konten yang masuk akal dari satu frame ke frame berikutnya.

Model ini menghasilkan wajah yang stabil dan koheren tanpa kedipan, distorsi, atau penyimpangan struktur di sekitar mata dan garis rahang yang dulu menjadi bukti forensik deepfake yang dapat diandalkan.

MEMBACA  Klub Cukur Terbaik untuk Tahun 2024: Dollar Shave Club, Harry's dan Lainnya

Kedua, kloning suara telah melampaui apa yang saya sebut sebagai ‘ambang batas tak terbendakan’. Sekarang, beberapa detik audio sudah cukup untuk menghasilkan klon yang meyakinkan — lengkap dengan intonasi alami, ritme, penekanan, emosi, jeda, dan suara napas. Kemampuan ini sudah memicu penipuan dalam skala besar. Beberapa pengecer besar melaporkan menerima lebih dari 1.000 panggilan penipuan yang dihasilkan AI per hari. Ciri-ciri perseptual yang dulu mengungkapkan suara sintetis sebagian besar telah hilang.

Ketiga, alat-alat konsumen telah mendorong hambatan teknis hampir ke nol. Peningkatan dari Sora 2 milik OpenAI dan Veo 3 milik Google serta gelombang startup berarti siapa pun bisa mendeskripsikan sebuah ide, meminta model bahasa besar seperti ChatGPT atau Gemini untuk membuat naskah, dan menghasilkan media audio-visual yang bagus dalam hitungan menit. Agen AI dapat mengotomatisasi seluruh proses. Kapasitas untuk menghasilkan deepfake yang koheren dan berbasis alur cerita dalam skala besar secara efektif telah didemokratisasi.

Kombinasi dari kuantitas yang melonjak dan persona yang hampir tidak bisa dibedakan dari manusia nyata ini menciptakan tantangan serius untuk mendeteksi deepfake, terutama di lingkungan media di mana perhatian orang terfragmentasi dan konten bergerak lebih cepat daripada yang bisa diverifikasi. Sudah ada kerugian di dunia nyata — dari misinformasi hingga pelecehan yang ditargetkan dan penipuan finansial — yang dimungkinkan oleh deepfake yang menyebar sebelum orang sempat menyadari apa yang terjadi.

Masa Depan adalah Waktu Nyata

Ke depannya, tren untuk tahun depan jelas: Deepfake bergerak menuju sintesis waktu nyata yang dapat menghasilkan video yang sangat menyerupai nuansa penampilan manusia, membuatnya lebih mudah untuk menghindari sistem deteksi. Batasannya bergeser dari realisme visual statis ke koherensi temporal dan perilaku: model yang menghasilkan konten langsung atau hampir langsung, bukan klip yang dirender sebelumnya.

MEMBACA  Pornografi deepfakes: Bagaimana mengajarkan anak-anak Anda tentang gambar palsu eksplisit

Pemodelan identitas menyatu menjadi sistem terpadu yang menangkap tidak hanya bagaimana seseorang terlihat, tetapi juga bagaimana mereka bergerak, terdengar, dan berbicara di berbagai konteks. Hasilnya melampaui "ini mirip orang X," menjadi "ini berperilaku seperti orang X dari waktu ke waktu." Saya memperkirakan seluruh peserta panggilan video akan disintesis secara real time; aktor yang digerakkan AI yang interaktif dengan wajah, suara, dan kebiasaan yang beradaptasi secara instan terhadap perintah; serta penipu yang menggunakan avatar responsif alih-alih video tetap.

Seiring kemampuan ini matang, kesenjangan perseptual antara media manusia sintetis dan autentik akan terus menyempit. Garis pertahanan yang berarti akan bergeser dari penilaian manusia. Sebaliknya, itu akan bergantung pada perlindungan tingkat infrastruktur. Ini termasuk asal-usul yang aman seperti media yang ditandatangani secara kriptografis, dan alat konten AI yang menggunakan spesifikasi Koalisi untuk Asal Usul dan Keaslian Konten. Itu juga akan bergantung pada alat forensik multimodal seperti Deepfake-o-Meter dari lab saya.

Hanya mengamati pixel lebih keras tidak akan lagi memadai.

Siwei Lyu, Profesor Ilmu Komputer dan Teknik; Direktur, UB Media Forensic Lab, University at Buffalo

Artikel ini diterbitkan ulang dari The Conversation di bawah lisensi Creative Commons. Baca artikel aslinya.

Tinggalkan komentar