Meskipun kemajuan AI yang memukau dalam beberapa tahun terakhir, robot tetap keras kepala dan terbatas. Mereka yang ditemukan di pabrik dan gudang biasanya melalui rutinitas yang tepat tanpa banyak kemampuan untuk mengetahui sekitar mereka atau beradaptasi secara spontan. Sedikit robot industri yang dapat melihat dan meraih benda hanya dapat melakukan sejumlah hal dengan keterampilan yang minimal karena kurangnya kecerdasan fisik umum.
Secara umum, robot yang lebih mampu bisa mengambil berbagai tugas industri yang jauh lebih luas, mungkin setelah demonstrasi minimal. Robot juga akan memerlukan kemampuan yang lebih umum untuk menghadapi variabilitas dan kekacauan yang besar di rumah manusia.
Kemajuan AI yang diperoleh telah menjadi optimisme tentang lonjakan baru dalam robotika. Perusahaan mobil Elon Musk, Tesla, sedang mengembangkan robot humanoid yang disebut Optimus, dan Musk baru-baru ini menyarankan bahwa itu akan tersedia luas dengan harga $20,000 hingga $25,000 dan mampu melakukan sebagian besar tugas pada tahun 2040.
Upaya sebelumnya untuk mengajari robot melakukan tugas-tugas menantang telah difokuskan pada melatih satu mesin pada satu tugas karena pembelajaran tampaknya tidak dapat dipindahkan. Beberapa karya akademis terbaru telah menunjukkan bahwa dengan skala dan penyetelan yang cukup, pembelajaran dapat dipindahkan antara tugas dan robot yang berbeda. Proyek Google 2023 yang disebut Open X-Embodiment melibatkan pembagian pembelajaran robot antara 22 robot yang berbeda di 21 laboratorium penelitian yang berbeda.
Tantangan utama dengan strategi yang dikejar oleh Physical Intelligence adalah bahwa tidak ada data robot dalam skala yang sama yang tersedia untuk pelatihan seperti halnya model bahasa besar dalam bentuk teks. Jadi perusahaan harus menghasilkan data mereka sendiri dan menciptakan teknik untuk meningkatkan pembelajaran dari kumpulan data yang lebih terbatas. Untuk mengembangkan π0 perusahaan menggabungkan model bahasa visi yang disebut, yang dilatih pada gambar serta teks, dengan pemodelan difusi, sebuah teknik yang dipinjam dari generasi gambar AI, untuk memungkinkan jenis pembelajaran yang lebih umum.
Agar robot dapat menangani setiap tugas robot yang diminta oleh seseorang, pembelajaran tersebut harus ditingkatkan secara signifikan. “Masih ada jalan panjang yang harus ditempuh, tetapi kami memiliki sesuatu yang dapat Anda anggap sebagai kerangka yang menggambarkan hal-hal yang akan datang,” kata Levine.