Bulan lalu, model kecerdasan buatan GameNGen dari Google menunjukkan bahwa teknik difusi gambar umum dapat digunakan untuk menghasilkan versi Doom yang bisa dimainkan dengan baik. Sekarang, para peneliti menggunakan teknik yang mirip dengan model bernama MarioVGG untuk melihat apakah kecerdasan buatan dapat menghasilkan video Super Mario Bros. yang masuk akal sebagai respons terhadap masukan pengguna.
Hasil dari model MarioVGG – yang tersedia sebagai makalah pra-cetak yang diterbitkan oleh perusahaan kecerdasan buatan terkait kripto bernama Virtuals Protocol – masih menunjukkan banyak glitch yang terlihat, dan terlalu lambat untuk mendekati permainan real-time. Namun, hasil tersebut menunjukkan bagaimana bahkan model terbatas dapat menyimpulkan beberapa fisika dan dinamika permainan yang mengesankan hanya dari mempelajari sedikit video dan data masukan.
Para peneliti berharap ini merupakan langkah pertama menuju “menghasilkan dan mendemonstrasikan generator permainan video yang dapat diandalkan dan terkendali” atau mungkin bahkan “menggantikan pengembangan permainan dan mesin permainan sepenuhnya dengan menggunakan model pembuatan video” di masa depan.
Menonton 737.000 Frame Mario
Untuk melatih model mereka, para peneliti MarioVGG (pengguna GitHub erniechew dan Brian Lim terdaftar sebagai kontributor) memulai dengan kumpulan data permainan Super Mario Bros. yang berisi 280 ‘level’ yang disusun untuk tujuan pembelajaran mesin (level 1-1 dihapus dari data pelatihan sehingga gambar dari itu dapat digunakan dalam evaluasi). Lebih dari 737.000 frame individu dalam kumpulan data itu “diproses” menjadi potongan 35 frame sehingga model dapat mulai belajar seperti apa hasil langsung dari berbagai masukan umumnya terlihat.
Untuk “menyederhanakan situasi permainan,” para peneliti memutuskan untuk fokus hanya pada dua masukan potensial dalam kumpulan data: “lari ke kanan” dan “lari ke kanan dan melompat.” Bahkan set pergerakan terbatas ini menyajikan beberapa kesulitan bagi sistem pembelajaran mesin, meskipun demikian, karena preprosessor harus melihat ke belakang beberapa frame sebelum melompat untuk mencari tahu apakah dan kapan “lari” dimulai. Semua lompatan yang melibatkan penyesuaian di udara (misalnya, tombol “kiri”) juga harus dihilangkan karena “ini akan memperkenalkan noise ke dataset pelatihan,” tulis para peneliti.
Setelah pra-pemrosesan (dan sekitar 48 jam pelatihan di kartu grafis RTX 4090 tunggal), para peneliti menggunakan proses konvolusi standar dan denoising untuk menghasilkan frame video baru dari gambar awal permainan statis dan masukan teks (baik “lari” atau “lompat” dalam kasus terbatas ini). Meskipun urutan yang dihasilkan ini hanya berlangsung beberapa frame, frame terakhir dari satu urutan dapat digunakan sebagai awal urutan baru, memungkinkan dibuatnya video permainan dengan panjang apa pun yang masih menunjukkan “permainan yang koheren dan konsisten,” menurut para peneliti.
Super Mario 0.5
Meskipun semua pengaturan ini, MarioVGG tidak benar-benar menghasilkan video yang halus dan tidak terpisahkan dari permainan NES yang asli. Untuk efisiensi, para peneliti menurunkan resolusi frame output dari NES 256×240 menjadi 64×48 yang jauh lebih buram. Mereka juga menyatukan 35 frame waktu video menjadi hanya tujuh frame yang dihasilkan yang didistribusikan “pada interval yang seragam,” menciptakan video “permainan” yang jauh lebih kasar dari output permainan sebenarnya.
Meskipun batasan-batasan itu, model MarioVGG masih kesulitan untuk mendekati generasi video real-time, pada titik ini. RTX 4090 tunggal yang digunakan oleh para peneliti membutuhkan enam detik penuh untuk menghasilkan urutan video enam frame, mewakili sedikit lebih dari setengah detik video, bahkan pada tingkat frame yang sangat terbatas. Para peneliti mengakui bahwa ini “tidak praktis dan ramah untuk permainan video interaktif” tetapi berharap bahwa optimisasi masa depan dalam kuantisasi bobot (dan mungkin penggunaan sumber daya komputasi lebih banyak) bisa meningkatkan tingkat ini.
Seperti semua model kecerdasan buatan probabilitas, MarioVGG memiliki kecenderungan yang membuat frustrasi karena terkadang memberikan hasil yang benar-benar tidak berguna.
Namun, dengan batasan tersebut, MarioVGG dapat membuat beberapa video yang cukup masuk akal tentang Mario yang berlari dan melompat dari gambar awal yang statis, mirip dengan pembuat game Genie dari Google. Model tersebut bahkan dapat “mempelajari fisika permainan hanya dari frame video dalam data pelatihan tanpa aturan yang tersirat secara eksplisit,” tulis para peneliti. Ini termasuk menyimpulkan perilaku seperti Mario jatuh saat berlari dari tepi tebing (dengan gravitasi yang masuk akal) dan (biasanya) menghentikan gerakan maju Mario saat berdekatan dengan rintangan, tulis para peneliti.
Sementara MarioVGG difokuskan pada mensimulasikan gerakan Mario, para peneliti menemukan bahwa sistem tersebut efektif dalam menghalusinasi rintangan baru untuk Mario saat video menggulir melalui level yang dibayangkan. Rintangan ini “konsisten dengan bahasa grafis permainan,” tulis para peneliti, namun saat ini tidak dapat dipengaruhi oleh dorongan pengguna (misalnya, meletakkan jurang di depan Mario dan membuatnya melompati).
Hanya Buatlah
Seperti semua model kecerdasan buatan probabilitas, meskipun demikian, MarioVGG memiliki kecenderungan yang membuat frustrasi karena terkadang memberikan hasil yang benar-benar tidak berguna. Terkadang itu berarti hanya mengabaikan perintah masukan pengguna (“kami melihat bahwa teks aksi masukan tidak selalu dipatuhi sepanjang waktu,” tulis para peneliti). Kadang-kadang, itu berarti menghalusinasi glitch visual yang jelas: Mario terkadang mendarat di dalam rintangan, berlari melalui rintangan dan musuh, berkedip dengan warna yang berbeda, menyusut/membesar dari frame ke frame, atau menghilang sepenuhnya selama beberapa frame sebelum muncul kembali.
Salah satu video yang sangat absurd yang dibagikan oleh para peneliti menunjukkan Mario jatuh melalui jembatan, menjadi Cheep-Cheep, lalu terbang kembali melalui jembatan dan berubah menjadi Mario lagi. Itu adalah jenis hal yang kami harapkan akan kita lihat dari Bunga Ajaib, bukan video kecerdasan buatan dari Super Mario Bros. asli.
Para peneliti menduga bahwa melatih lebih lama pada “data permainan yang lebih beragam” bisa membantu mengatasi masalah signifikan ini dan membantu model mereka mensimulasikan lebih dari sekadar berlari dan melompat tanpa henti ke kanan. Meskipun begitu, MarioVGG tetap menjadi bukti konsep yang menyenangkan bahwa bahkan data pelatihan dan algoritma terbatas dapat membuat beberapa model awal permainan dasar yang baik.
Cerita ini awalnya muncul di Ars Technica.