Misi untuk Membantu AI Chatbots dengan Tangan dan Lengan

Peter Chen, CEO dari perusahaan perangkat lunak robot Covariant, duduk di depan antarmuka chatbot yang menyerupai yang digunakan untuk berkomunikasi dengan ChatGPT. “Tunjukkan tote di depanmu,” tulisnya. Sebagai balasan, feed video muncul, memperlihatkan lengan robot di atas bin yang berisi berbagai item—sepasang kaos kaki, tabung keripik, dan apel di antaranya.

Chatbot ini dapat mendiskusikan item yang dilihatnya—tetapi juga memanipulasinya. Ketika WIRED menyarankan Chen untuk memintanya mengambil sepotong buah, lengan tersebut turun, dengan lembut meraih apel, dan kemudian memindahkannya ke bin lain di dekatnya.

Chatbot yang praktis ini merupakan langkah menuju memberikan robot kemampuan umum dan fleksibel seperti program seperti ChatGPT. Ada harapan bahwa kecerdasan buatan akhirnya dapat memperbaiki kesulitan yang selama ini ada dalam memprogram robot dan membuat mereka melakukan lebih dari sekumpulan pekerjaan yang sempit.

“Tidak sama sekali kontroversial pada saat ini untuk mengatakan bahwa model dasar adalah masa depan robotika,” kata Chen, menggunakan istilah untuk model pembelajaran mesin berkecepatan besar dan tujuan umum yang dikembangkan untuk domain tertentu. Chatbot praktis yang ditunjukkan olehnya didukung oleh model yang dikembangkan oleh Covariant yang disebut RFM-1, untuk Robot Foundation Model. Seperti model di balik ChatGPT, Gemini dari Google, dan chatbot lainnya, model ini dilatih dengan sejumlah besar teks, tetapi juga telah diberi makan video dan data kontrol perangkat keras dan gerakan dari puluhan juta contoh gerakan robot yang diperoleh dari tenaga kerja di dunia fisik.

Inklusi data tambahan itu menghasilkan model yang tidak hanya lancar dalam bahasa tetapi juga dalam tindakan dan mampu menghubungkan keduanya. RFM-1 tidak hanya dapat mengobrol dan mengendalikan lengan robot tetapi juga menghasilkan video yang menunjukkan robot melakukan berbagai tugas. Saat diminta, RFM-1 akan menunjukkan bagaimana robot seharusnya meraih objek dari bin yang berantakan. “Ini dapat menyerap semua modalitas yang penting untuk robotika, dan juga dapat mengeluarkan salah satunya,” kata Chen. “Ini agak menakjubkan.”

MEMBACA Indonesia dan Liberia membahas kerja sama di tiga sektor kunci

Model ini juga telah menunjukkan bahwa ia dapat belajar mengendalikan perangkat keras serupa yang tidak ada dalam data latihannya. Dengan pelatihan lebih lanjut, ini bahkan mungkin berarti bahwa model umum yang sama dapat mengoperasikan robot humanoid, kata Pieter Abbeel, pendiri dan ilmuwan kepala Covariant, yang telah memimpin pembelajaran robot. Pada tahun 2010 ia memimpin proyek yang melatih robot untuk melipat handuk—meskipun lambat—dan ia juga bekerja di OpenAI sebelum berhenti melakukan penelitian robot.

Covariant, yang didirikan pada tahun 2017, saat ini menjual perangkat lunak yang menggunakan pembelajaran mesin untuk memungkinkan lengan robot mengambil item dari bin di gudang tetapi biasanya terbatas pada tugas yang telah mereka latih. Abeel mengatakan bahwa model seperti RFM-1 dapat memungkinkan robot untuk beralih ke tugas baru dengan lebih lancar. Ia membandingkan strategi Covariant dengan cara Tesla menggunakan data dari mobil yang telah dijual untuk melatih algoritma self-driving-nya. “Ini agak sama dengan apa yang kami lakukan di sini,” katanya.

Abeel dan rekan-rekannya di Covariant bukanlah satu-satunya ahli robotik yang berharap bahwa kemampuan model bahasa besar di balik ChatGPT dan program serupa dapat membawa revolusi dalam robotika. Proyek seperti RFM-1 telah menunjukkan hasil awal yang menjanjikan. Namun berapa banyak data yang diperlukan untuk melatih model yang membuat robot memiliki kemampuan yang jauh lebih umum—dan bagaimana mengumpulkannya—masih menjadi pertanyaan terbuka.