Minggu ini sebuah startup bernama Cognition AI menimbulkan sedikit kehebohan dengan merilis demo yang menunjukkan program kecerdasan buatan bernama Devin melakukan pekerjaan yang biasanya dilakukan oleh insinyur perangkat lunak yang dibayar tinggi. Chatbot seperti ChatGPT dan Gemini dapat menghasilkan kode, tetapi Devin pergi lebih jauh, merencanakan cara menyelesaikan masalah, menulis kode, dan kemudian menguji serta menerapkannya.
Pencipta Devin memasarkan program ini sebagai “pengembang perangkat lunak AI.” Ketika diminta untuk menguji seberapa baik model bahasa open source Meta bernama Llama 2 yang diakses melalui perusahaan-perusahaan yang menghostingnya, Devin menghasilkan rencana langkah demi langkah untuk proyek tersebut, menghasilkan kode yang diperlukan untuk mengakses API dan menjalankan uji benchmarking, serta membuat situs web yang merangkum hasilnya.
Selalu sulit untuk menilai demo yang disusun, tetapi Cognition telah menunjukkan kemampuan Devin dalam menangani berbagai tugas yang mengesankan. Ini membuat investor dan insinyur terkesan di X, menerima banyak dukungan, dan bahkan menginspirasi beberapa meme—termasuk beberapa yang memprediksi bahwa Devin akan segera bertanggung jawab atas gelombang pemutusan hubungan kerja di industri teknologi.
Devin hanyalah contoh terbaru dan paling terampil dari tren yang telah saya pantau sejak lama—yaitu munculnya agen AI yang bukan hanya memberikan jawaban atau saran tentang masalah yang disajikan oleh manusia tetapi juga bertindak untuk memecahkannya. Beberapa bulan yang lalu saya mencoba Auto-GPT, program open source yang mencoba menjalankan tugas-tugas yang berguna dengan mengambil tindakan di komputer dan web seseorang. Baru-baru ini saya menguji program lain bernama vimGPT untuk melihat bagaimana keterampilan visual model AI baru dapat membantu agen-agennya menjelajahi web dengan lebih efisien.
Saya terkesan dengan percobaan saya dengan agen-agennya. Namun, untuk saat ini, sama seperti model bahasa yang menggerakkannya, mereka melakukan cukup banyak kesalahan. Dan ketika sebuah perangkat lunak mengambil tindakan, bukan hanya menghasilkan teks, satu kesalahan bisa berarti kegagalan total—dan konsekuensi yang mungkin mahal atau berbahaya. Mempersempit rentang tugas yang dapat dilakukan oleh seorang agen, misalnya, ke serangkaian tugas rekayasa perangkat lunak tertentu, tampaknya menjadi cara cerdas untuk mengurangi tingkat kesalahan, tetapi masih banyak cara potensial untuk gagal.
Tidak hanya startup yang membangun agen AI. Awal minggu ini saya menulis tentang sebuah agen bernama SIMA, yang dikembangkan oleh Google DeepMind, yang memainkan video game termasuk judul yang benar-benar gila yaitu Goat Simulator 3. SIMA belajar dari cara pemain manusia bermain bagaimana melakukan lebih dari 600 tugas yang cukup rumit seperti menebang pohon atau menembak asteroid. Yang paling penting, ia dapat melakukan banyak tindakan ini dengan sukses bahkan dalam game yang tidak dikenal. Google DeepMind menyebutnya sebagai “generalist.”
Saya curiga bahwa Google memiliki harapan bahwa agen-agensi ini pada akhirnya akan bekerja di luar video game, mungkin membantu menggunakan web atas nama pengguna atau mengoperasikan perangkat lunak untuk mereka. Tetapi video game menjadi tempat pembibitan yang baik untuk mengembangkan dan menguji agen, dengan menyediakan lingkungan yang kompleks di mana mereka dapat diuji dan diperbaiki. “Membuat mereka lebih tepat adalah sesuatu yang sedang kami kerjakan dengan aktif,” kata Tim Harley, seorang peneliti ilmiah di Google DeepMind, kepada saya. “Kami memiliki berbagai gagasan.”
Anda dapat mengharapkan banyak berita tentang agen AI dalam beberapa bulan mendatang. Demis Hassabis, CEO Google DeepMind, baru-baru ini mengatakan kepada saya bahwa ia berencana untuk menggabungkan model bahasa besar dengan pekerjaan yang perusahaan tersebut telah lakukan sebelumnya dalam melatih program AI untuk bermain video game untuk mengembangkan agen yang lebih mampu dan andal. “Ini pasti adalah area yang sangat besar. Kami sedang menginvestasikan banyak hal ke arah itu, dan saya membayangkan orang lain juga melakukan hal yang sama,” kata Hassabis. “Ini akan menjadi perubahan langkah dalam kemampuan sistem-sistem semacam itu—ketika mereka mulai menjadi lebih mirip agen.”