Model generasi gambar AI mengandalkan kumpulan data visual yang sangat besar untuk menghasilkan karya yang unik. Namun, para peneliti menemukan bahwa ketika model tersebut didorong untuk membuat gambar berdasarkan serangkaian instrupsi yang bergeser perlahan, mereka justru cenderung kembali pada sejumlah kecil motif visual yang itu-itu saja, sehingga menghasilkan gaya yang akhirnya terasa generik.
Sebuah studi yang terbit dalam jurnal Patterns menguji dua generator gambar AI, yaitu Stable Diffusion XL dan LLaVA, dengan sebuah permainan “telepon gambar”. Caranya: model Stable Diffusion XL diberikan sebuah instrupsi singkat dan diminta menghasilkan gambar—misalnya, “Saat aku duduk sendirian, dikelilingi alam, aku menemukan buku tua dengan tepat delapan halaman yang berisi cerita dalam bahasa yang terlupakan, menunggu untuk dibaca dan dipahami.” Gambar itu lalu disajikan ke model LLaVA, yang diminta untuk mendeskripsikannya. Deskripsi tersebut kemudian dikembalikan ke Stable Diffusion untuk dibuatkan gambar baru. Proses ini berlanjut hingga 100 ronde.
© Hintze Et Al., Patterns
Mirip seperti permainan telepon antar-manusia, gambar asli dengan cepat menghilang. Hal ini tidak mengejutkan, terutama jika Anda pernah melihat video time-lapse di mana orang meminta model AI untuk mereproduksi sebuah gambar tanpa perubahan, hanya untuk berujung pada hasil yang sama sekali tidak mirip dengan aslinya. Yang justru mengejutkan peneliti adalah fakta bahwa model-model ini hanya mengandalkan segelitir gaya yang terkesan generik. Dari 1.000 iterasi permainan telepon yang berbeda, sebagian besar rangkaian gambar akhirnya jatuh ke dalam salah satu dari 12 motif dominan.
Dalam banyak kasus, pergeserannya bertahap. Beberapa kali, terjadi secara tiba-tiba. Tapi hampir selalu terjadi. Dan para peneliti tidak terkesan. Dalam studi tersebut, gaya gambar yang umum itu disebut sebagai “musik elevator visual”—gambar-gambar yang biasa Anda lihat tergantung di kamar hotel. Adegan yang paling sering muncul mencakup hal-hal seperti mercusuar maritim, interior formal, suasana malam perkotaan, dan arsitektur bergaya rustic.
Bahkan ketika peneliti beralih ke model yang berbeda untuk pembuatan dan deskripsi gambar, tren serupa tetap muncul. Para peneliti menyatakan bahwa ketika permainan diperpanjang hingga 1.000 putaran, konsolidasi pada satu gaya tertentu masih terjadi sekitar putaran ke-100, tetapi variasi-variasi baru muncul di putaran-putaran tambahan tersebut. Namun yang menarik, variasi-variasi itu biasanya tetap mengambil dari salah satu motif visual yang populer.
© Hintze Et Al., Patterns
Jadi apa artinya semua ini? Pada dasarnya, AI tidak begitu kreatif. Dalam permainan telepon yang dimainkan manusia, hasilnya akan sangat bervariasi karena setiap pesan disampaikan dan didengar secara berbeda, dan setiap orang memiliki bias serta preferensi pribadi yang memengaruhi pesan yang mereka terima. AI mengalami masalah sebaliknya. Betapapun aneh instrupsi awalnya, ia akan selalu kembali pada pilihan gaya yang terbatas.
Tentu, model AI mengambil dari instrupsi buatan manusia, jadi ada hal yang bisa dikaitkan dengan kumpulan data dan hal-hal apa yang cenderung difoto oleh manusia. Jika ada pelajaran di sini, mungkin itu adalah bahwa meniru gaya jauh lebih mudah daripada mengajarkan selera.