Summer Yue bekerja di tim keselamatan dan penyelarasan superinteligensi Meta, tapi dia akui bahwa dia juga bisa terlalu percaya diri soal agen AI otonom.
Di postingan X hari Senin, Yue cerita bagaimana agen AI otonom OpenClaw-nya—yang dibuat untuk berjalan lokal di komputer Mac mini—menghapus seluruh kotak masuk emailnya. Agen itu mengabaikan perintah untuk berhenti dan minta konfirmasi dulu.
“Saya harus LARI ke Mac Mini seperti sedang melucuti bom,” katanya. Dia bilang itu adalah “kesalahan pemula.” Alur kerja itu berjalan baik di kotak masuk percobaan selama bermingu-mingu, tapi di kotak masuk asli, agennya lupa instruksi awalnya.
Pengalaman Yue sangat berbeda dengan postingan viral seperti “The Lobster Revolution: Why 24/7 AI Agents Just Changed Everything” oleh Peter Diamandis, yang klaim AI yang selalu aktif jauh lebih lancar.
“Biar saya ceritakan rasanya pakai ini,” tulis Diamandis. “Anda bangun pagi dan agen Anda—punya saya namanya Skippy, penuh sarkasme ceria dan sangat mampu—telah bekerja delapan jam selama Anda tidur. Ia membaca seribu halaman markdown. Mengatur file Anda. Menyusun tiga rencana proyek. Memesan perjalanan Anda. Meneliti pertanyaan yang Anda lupa semalam.”
“Ketika Mac mini saya mati selama enam jam, saya merasa seperti sakau,” tambahnya. “Seperti sahabat saya hilang.”
Kedua cerita yang berlawanan ini menggambarkan ketegangan di balik dorongan menuju AI “selalu aktif”. Alat seperti OpenClaw dan Claude Code membuat agen bisa berjalan lama, sehingga ada kegembiraan soal AI yang bekerja saat kita tidur. Tapi dalam praktiknya, pengguna awal bilang otonomi itu masih rapuh, tak terduga, dan butuh banyak pengawasan. Daripada menggantikan kerja manusia, agen saat ini sering butuh pemantauan terus-menerus, pagar pengaman, dan campur tangan, apalagi untuk hal-hal berisiko tinggi.
### Agen AI bekerja paling baik untuk tugas sederhana dan berisiko rendah
Shyamal Anadkat, mantan insinyur AI terapan di OpenAI, bilang kebanyakan agen yang sukses saat ini masih butuh pengecekan manusia sering atau terbatas pada tugas yang sempit dan jelas—meski dia tekankan ini akan berubah seiring kemajuan teknik evaluasi.
“Sistem yang akurat 95% untuk tiap langkah bisa jadi kacau dalam alur kerja otonom 20 langkah,” kata Anadkat. “Perencanaan jangka panjang masih lemah.” Akibatnya, agen mungkin bagus untuk rantai tugas pendek, tapi gagal saat diminta mengelola proyek kompleks berhari-hari. Memori juga keterbatasan besar: “Di banyak agen, memori tidak ada atau rapuh. Anda butuh sistem yang bisa menjaga konteks kerja, prioritas, dan batasan dengan koheren.”
Menurut Yoav Shoham, mantan ilmuwan utama di Google dan profesor emeritus di Stanford, ini bukan berarti janji agen AI cuma omong kosong. Tapi artinya ada bahaya orang terlalu optimis. Agen AI saat ini, jelasnya, bekerja paling baik saat tugasnya berisiko rendah, definisinya longgar, dan murah jika salah.
“Pengembang suka mainan, dan Anda punya mainan ini yang bisa melakukan hal-hal hebat,” katanya ke Fortune. “Selama yang dilakukannya cukup sederhana dan berisiko rendah dengan toleransi kesalahan tinggi, itu tidak masalah.” Misalnya, jika Anda ingin agen membaca 10.000 situs web dan melakukan sesuatu yang menarik dengan hasilnya untuk memberi Anda informasi berguna semalaman.
Tapi untuk alur kerja perusahaan yang krusial, standarnya jauh lebih tinggi. Perusahaan butuh sistem yang bisa diverifikasi, diulang, dan hemat biaya—kebutuhan ini cepat mengikis janji “atur dan lupakan” dari agen otonom penuh. Di bidang terstruktur seperti pemrograman atau matematika, otomatisasi lebih dalam sudah mungkin. Tapi untuk kebanyakan proses bisnis dunia nyata, kata Shoham, usaha untuk membuat agen andal sering lebih besar daripada manfaatnya.
Bret Greenstein, kepala petugas AI di firma konsultan West Monroe, tunjukkan bahwa alat seperti OpenClaw terasa seperti titik balik, mirip dengan yang terjadi pada AI generatif saat ChatGPT diluncurkan tahun 2022—untuk pertama kalinya, ide agen AI jadi terjangkau. Tapi, itu bukan solusi ajaib 24/7.
“Itu bisa bekerja lama, mengerjakan banyak hal, tapi seperti balita yang perlu diawasi,” katanya. Beberapa tugas masuk akal dilakukan saat Anda tidur, seperti memindai pesan LinkedIn atau melacak berita. “Saya tidak yakin akan menyuruhnya menjawab umpan balik pelanggan saat saya tidur,” katanya.
### Kemampuan mendelegasikan ke agen AI terasa sangat kuat
Namun, tidak diragukan lagi bahwa kemampuan mendelegasikan tugas dunia nyata ke agen AI sangat menarik bagi pengguna, tekans Greenstein. Dia menunjuk pengalamannya sendiri menyerahkan tugas biasa yaitu menjemput pakaiannya untuk dicuci ke agen AI—dan melihatnya menyelesaikan pekerjaan itu dari awal sampai akhir.
Agen itu secara mandiri menghubungi tukang cuci, mengatur logistik penjemputan lewat email, mengoordinasikan waktu, memantau kamera bel pintu untuk konfirmasi penjemputan, dan memberi tahu Greenstein setelah tugas selesai. Kejadian ini menunjukkan bagaimana agen bisa beroperasi di berbagai sistem dan beradaptasi saat rencana berubah. Tapi itu juga menggarisbawahi mengapa alat seperti itu masih butuh pagar pengaman ketat dan pengawasan—terutama sebelum dipakai di setting perusahaan.
“OpenClaw diatur sehingga seharusnya tidak terasa aman bagi kebanyakan orang,” kata Greenstein. “Itu belum terasa cukup matang untuk menjadi bagian terpercaya dari hidup kita.” Agar AI diterima dalam kehidupan sehari-hari atau operasi bisnis, tambahnya, ia harus mendapatkan kepercayaan seiring waktu—seperti cara kepercayaan dibangun secara sosial.
Meski begitu, permintaan sudah jelas. Greenstein tunjukkan pertemuan dan perkumpulan industri awal yang khusus membahas OpenClaw, kemunculan cepat yang dia sebut tidak biasa untuk alat yang masih muda. “Itu menunjukkan betapa laparnya orang akan AI yang benar-benar berguna,” katanya—sistem yang melampaui menjawab pertanyaan dan mulai mengambil tindakan.
Aaron Levie, CEO perusahaan manajemen konten dan kolaborasi berbasis cloud Box, menyebut apa yang terjadi sekarang dengan agen AI sebagai “kilatan kecil” dari apa yang mungkin terjadi di masa depan.
“Beberapa kilatan akhirnya tidak terwujud, beberapa kilatan menjadi standar,” jelasnya, menunjuk dua tahun lalu saat perusahaan AI Cognition memperkenalkan agen awal bernama Devin yang terintegrasi dengan Slack untuk pendelegasian tugas, perbaikan bug, analisis data, dan tinjauan kode. Saat itu, itu masih dianggap futuristik, tapi sekarang, “tidak ada yang bingung bahwa ini adalah praktik standar,” katanya. “Anda bisa langsung Slack Claude Code untuk mengerjakan sesuatu—apa yang dulu dianggap ide gila sekarang jadi standar tim teknik modern.”
Tapi sementara agen AI menjadi sangat baik dalam mengotomatisasi tugas spesifik dan terpisah, mereka tetap buruk dalam menangani pekerjaan yang lebih luas dan sarat konteks yang membentuk sebagian besar pekerjaan, tekans Levie. Agen AI mungkin mengotomatisasi sepenuhnya beberapa tugas, tapi kesulitan dengan sisanya—termasuk menjalin hubungan dan menghadiri rapat.
“Saat Anda dengar lab AI bilang kami akan mengotomatisasi semua pekerjaan pengetahuan dalam 24 bulan, itu biasanya definisi pekerjaan yang sangat sempit,” katanya. “Definisi apa yang bisa dilakukan agen tidak sama dengan definisi pekerjaan yang direkrut di ekonomi.”
### Faktor kepercayaan penting saat hal-hal bisa salah
Avinash Vootkuri, seorang staf ilmuwan data di retailer Fortune 500 teratas, bilang bahwa kebanyakan agen AI perusahaan “benar-benar butuh pengasuh” dan, untuk saat ini, hanya bisa bekerja di setting perusahaan dengan otonomi terbatas ketat dan pagar pengaman luas. “Taruhannya sangat besar,” jelasnya.
Misalnya, dia menjelaskan membangun sistem agen untuk keamanan siber perusahaan di mana agen AI tidak hanya memicu peringatan dan menunggu tinjauan manusia, tapi secara aktif menyelidikinya. Alih-alih membanjiri analis dengan ribuan peringatan, agen mengumpulkan bukti secara real time—menanyai basis data intelijen ancaman, menganalisis pola perilaku, dan menyaring positif palsu—sebelum memutuskan apakah suatu situasi perlu dikaji ulang.
Sistem ini bergantung pada otonomi terbatas ketat dan pagar pengaman luas, mengurangi beban kerja manusia tanpa menghilangkan pengawasan.
Di keamanan siber, jelasnya, jika agen salah, konsekuensinya langsung dan parah. “AI要么 memblokir pelanggan sah (menyebabkan kehilangan pendapatan besar) atau membiarkan aktor ancaman canggih masuk ke jaringan,” katanya. “Sangat penting jika ada yang salah.”
Menurut Breeanna Whitehead, yang menjalankan konsultan operasi AI tempat dia membangun sistem bertenaga AI untuk eksekutif dan pendiri, industri sedang dalam “fase kalibrasi kepercayaan.”
Agen AI bisa melakukan lebih dari yang diizinkan kebanyakan orang, tapi kurang dari yang dihebohkan.
“Keterampilan sebenarnya bukan membangun agen—tapi merancang serah terimanya,” jelasnya. “Kebanyakan orang要么 terlalu percaya agen dan akhirnya membereskan kekacauan, atau mereka mengawasi ketat setiap hasil dan heran mengapa AI terasa seperti lebih banyak kerja bukannya lebih sedikit.” Idealnya, katanya, merancang titik serah terima yang jelas, di mana sesuatu mungkin didelegasikan sepenuhnya, hal lain mungkin dapat tinjauan cepat, sementara tugas lain tetap hanya untuk manusia.
Untuk saat ini, katanya, agen “sangat bagus” dalam apa yang dia sebut lapisan tengah pekerjaan pengetahuan—”hal-hal yang dulu menghabiskan dua sampai tiga jam sehari orang pintar, seperti menyintesis catatan rapat menjadi item aksi, menyusun email tindak lanjut dengan suara seseorang, menyusun riset singkat, mengatur prioritas yang bersaing menjadi rencana jelas.”
Tapi apa pun yang membutuhkan membaca situasi, menavigasi ambiguitas, atau membuat keputusan yang bergantung pada hubungan, belum siap untuk agen AI. “Saya punya klien yang ingin mengotomatisasi sepenuhnya komunikasi dengan investor mereka,” katanya. “AI bisa menyusun dengan indah, tapi tidak bisa merasakan kapan pendana kehilangan minat dan butuh pendekatan berbeda. Agen menyusun emailnya, tapi manusia yang harus memutuskan untuk mengirimnya atau tidak.”
### Untuk saat ini, tidur mungkin sulit didapat saat bekerja dengan agen AI
Untuk saat ini, bekerja dengan agen AI mungkin lebih berkaitan dengan tetap setengah terjaga saat mereka bekerja daripada tidur nyenyak. Alat seperti OpenClaw bisa berjalan berjam-jam, tapi bagi banyak pengguna awal, otonomi itu datang dengan kewaspadaan baru—memeriksa log, meninjau keluaran, dan turun tangan sebelum ada yang salah.
Dinamika ini tergambar dalam postingan viral baru-baru ini berjudul “Token Anxiety”, di mana investor Nikunj Kothari mendeskripsikan seorang teman yang pulang lebih awal dari pesta—bukan karena lelah, tapi karena ingin kembali ke agen-nya. “Tidak ada yang mempertanyakannya lagi,” tulis Kothari. “Separuh ruangan berpikir hal yang sama. Separuh lainnya mungkin sedang memeriksa kemajuan agen mereka. Di sebuah pesta.”
Mimpi AI yang bekerja saat Anda tidur mungkin nyata. Tapi untuk saat ini, itu justru membuat banyak orang tetap terjaga.