Versi asli dari artikel ini terbit di Quanta Magazine.
Berikut sebuah tes untuk bayi: Tunjukkan kepada mereka segelas air di atas meja. Sembunyikan gelas itu di balik papan kayu. Lalu, geser papan tersebut mendekati gelas. Jika papan terus bergerak melewati gelas, seakan-akan gelas itu tidak ada, apakah mereka terkejut? Banyak bayi berumur 6 bulan menunjukkan keheranan, dan pada usia setahun, hampir semua anak telah memiliki pemahaman intuitif tentang keberlanjutan suatu objek, yang dipelajari melalui pengamatan. Kini, beberapa model kecerdasan buatan juga memilikinya.
Para peneliti telah mengembangkan sebuah sistem AI yang belajar tentang dunia melalui video dan menunjukkan konsep “kejutan” ketika disajikan informasi yang bertentangan dengan pengetahuan yang telah dikumpulkannya.
Model yang diciptakan oleh Meta dan dinamakan Video Joint Embedding Predictive Architecture (V-JEPA) ini tidak membuat asumsi apapun mengenai fisika dunia yang terkandung dalam video-video tersebut. Meski demikian, ia dapat mulai memahami bagaimana dunia bekerja.
“Klaim mereka, secara a priori, sangat masuk akal, dan hasilnya sungguh menarik,” ujar Micha Heilbron, seorang ilmuwan kognitif di Universitas Amsterdam yang mempelajari bagaimana otak dan sistem buatan memahami dunia.
Abstraksi yang Lebih Tinggi
Seperti yang diketahui oleh para insinyur yang membangun mobil self-driving, bisa jadi sulit untuk membuat sistem AI secara konsisten memahami apa yang dilihatnya. Sebagian besar sistem yang dirancang untuk “memahami” video—baik untuk mengklasifikasikan isinya (misalnya, “seseorang bermain tenis”) atau mengidentifikasi kontur suatu objek, seperti mobil di depan—bekerja dalam apa yang disebut “ruang piksel.” Model pada dasarnya memperlakukan setiap pixel dalam video memiliki tingkat kepentingan yang sama.
Namun, model-model ruang piksel ini memiliki keterbatasan. Bayangkan mencoba memahami sebuah jalan di perkotaan. Jika pemandangannya berisi mobil, lampu lalu lintas, dan pohon, model mungkin terlalu fokus pada detail-detail yang tidak relevan seperti gerakan daun-daun. Ia mungkin melewatkan warna lampu lalu lintas, atau posisi mobil-mobil di sekitarnya. “Ketika Anda beralih ke gambar atau video, Anda tidak ingin bekerja di ruang [piksel] karena ada terlalu banyak detail yang tidak ingin Anda modelkan,” kata Randall Balestriero, seorang ilmuwan komputer di Universitas Brown.
Yann LeCun, seorang ilmuwan komputer di Universitas New York dan direktur penelitian AI di Meta, menciptakan JEPA, pendahulu V-JEPA yang bekerja pada gambar diam, pada tahun 2022.
Foto: École Polytechnique Université Paris-Saclay