Ibu Dewi AI Menginginkan Semua Orang Menjadi Pembangun Dunia

Menurut para ahli teknologi yang terfokus pada pasar dan skeptis profesional, gelembung kecerdasan buatan telah pecah, dan musim dingin sudah kembali. Fei-Fei Li tidak mempercayainya. Sebenarnya, Li—yang dikenal dengan sebutan “dewi kecerdasan buatan”—mengambil posisi sebaliknya. Dia sedang cuti paruh waktu dari Universitas Stanford untuk menjadi pendiri perusahaan bernama World Labs. Sementara kecerdasan buatan generatif saat ini berbasis bahasa, dia melihat sebuah batas di mana sistem-sistem dapat membuat dunia-dunia lengkap dengan fisika, logika, dan detail kaya dari realitas fisik kita. Ini adalah tujuan yang ambisius, dan meskipun para orang yang pesimis yang mengatakan kemajuan dalam kecerdasan buatan telah mencapai titik terendah, World Labs berada di jalur cepat mendapatkan pendanaan. Startup ini mungkin hanya berjarak satu tahun dari memiliki produk—dan tidak jelas sama sekali seberapa baik produk tersebut akan bekerja saat dan jika benar-benar sampai—tapi investor telah menyuntikkan $230 juta dan kabarnya menilai startup yang baru lahir ini dengan satu miliar dolar.

Sebagai informasi, Li membantu kecerdasan buatan mencapai titik balik dengan menciptakan ImageNet, sebuah basis data gambar digital yang memungkinkan jaringan saraf menjadi lebih pintar. Dia merasa bahwa model deep-learning saat ini memerlukan dorongan serupa jika kecerdasan buatan ingin menciptakan dunia-dunia sebenarnya, baik itu simulasi realistis atau alam semesta yang sepenuhnya terbayangkan. Penulis masa depan seperti George R.R. Martin mungkin akan menggambarkan dunia imajinatif mereka sebagai pemicu alih-alih prosa, yang kemudian bisa Anda render dan jelajahi. “Dunia fisik bagi komputer dilihat melalui kamera, dan otak komputer di balik kamera,” kata Li. “Mengubah visi itu menjadi penalaran, generasi, dan interaksi akhir melibatkan pemahaman struktur fisik, dinamika fisik dunia fisik. Dan teknologi itu disebut kecerdasan spasial.” World Labs menyebut dirinya sebagai perusahaan kecerdasan spasial, dan nasibnya akan membantu menentukan apakah istilah tersebut akan menjadi revolusi atau lelucon.

MEMBACA  Uber memperbarui akun remaja untuk memungkinkan orang tua memesan perjalanan

Li telah bersemangat tentang kecerdasan spasial selama bertahun-tahun. Sementara semua orang sedang gila-gilaan dengan ChatGPT, dia dan mantan muridnya, Justin Johnson, dengan penuh semangat membahas di telepon tentang iterasi kecerdasan buatan selanjutnya. “Dekade mendatang akan tentang menghasilkan konten baru yang mengambil visi komputer, pembelajaran mendalam, dan kecerdasan buatan keluar dari dunia internet, dan membuatnya tertanam dalam ruang dan waktu,” kata Johnson, yang sekarang menjadi profesor asisten di Universitas Michigan.

Li memutuskan untuk memulai perusahaan pada awal 2023, setelah makan malam dengan Martin Casado, seorang pelopor jaringan virtual yang sekarang menjadi mitra di Andreessen Horowitz. Itu adalah perusahaan modal ventura yang terkenal karena dukungan hampir mesianiknya terhadap kecerdasan buatan. Casado melihat kecerdasan buatan sedang menempuh jalur yang sama dengan permainan komputer, yang dimulai dengan teks, bergerak ke grafik 2D, dan sekarang memiliki gambar 3D yang memukau. Kecerdasan spasial akan mendorong perubahan itu. Pada akhirnya, katanya, “Anda bisa mengambil buku favorit Anda, melemparkannya ke dalam model, dan kemudian Anda benar-benar masuk ke dalamnya dan menyaksikannya berlangsung secara real time, dengan cara yang imersif,” katanya. Langkah pertama untuk mewujudkannya, sepakat Casado dan Li, adalah beralih dari model bahasa besar menjadi model dunia besar.

Li mulai mengumpulkan tim, dengan Johnson sebagai pendiri. Casado menyarankan dua orang lain—salah satunya adalah Christoph Lassner, yang pernah bekerja di Amazon, Meta’s Reality Labs, dan Epic Games. Dia adalah penemu Pulsar, sebuah skema render yang mengarah pada teknik terkenal yang disebut 3D Gaussian Splatting. Itu terdengar seperti band indie di pesta toga MIT, tetapi sebenarnya itu adalah cara untuk mensintesis adegan, dibandingkan dengan objek satu kali. Saran Casado yang lain adalah Ben Mildenhall, yang telah menciptakan teknik kuat bernama NeRF—neural radiance fields—yang mengubah gambar piksel 2D menjadi grafik 3D. “Kami membawa objek dunia nyata ke dalam VR dan membuatnya terlihat sangat nyata,” katanya. Dia meninggalkan posnya sebagai ilmuwan penelitian senior di Google untuk bergabung dengan tim Li.

MEMBACA  Saya mencoba proyektor terkecil di dunia dengan Google TV, dan saya terkesan

Satu tujuan yang jelas dari model dunia besar adalah memberikan rasa dunia ke dalam robot. Itu memang dalam rencana World Labs, tapi bukan untuk saat ini. Fase pertama adalah membangun model dengan pemahaman mendalam tentang tiga dimensi, fisik, dan konsep ruang dan waktu. Selanjutnya akan datang fase di mana model mendukung realitas tambahan. Setelah itu perusahaan bisa mengambil alih robotika. Jika visi ini terwujud, model dunia besar akan meningkatkan mobil otonom, pabrik otomatis, dan mungkin bahkan robot humanoid.