Kecerdasan Buatan yang Benar-Benar Otonom Masih Jauh: Alasan dan Jalan Menuju Masa Depan Itu

Kredit Gambar: Yuichiro Chino/Moment/Getty Images

Ikuti ZDNET: Tambahkan kami sebagai sumber pilihan di Google.

Poin Penting ZDNET:

  • Agen AI masa kini belum memenuhi definisi agen sejati.
  • Unsur kunci yang hilang adalah reinforcement learning dan memori yang kompleks.
  • Diperlukan setidaknya lima tahun lagi untuk membawa agen AI ke tingkat yang diharapkan.

    Raksasa teknologi perusahaan—Microsoft, ServiceNow, Salesforce, dan lain-lain—telah menghabiskan satu setengah tahun terakhir dengan [memperkenalkan berbagai jenis agen kecerdasan buatan](https://www.zdnet.com/article/meet-agentforce-salesforces-autonomous-ai-agent-answer-to-employee-burnout/#link={%22role%22:%22standard%22,%22href%22:%22https://www.zdnet.com/article/meet-agentforce-salesforces-autonomous-ai-agent-answer-to-employee-burnout/%22,%22target%22:%22%22,%22absolute%22:%22%22,%22linkText%22:%22unveiling various kinds of artificial intelligence agents%22}), yaitu program yang dapat mengotomatisasi banyak tugas dalam rangkaian perangkat lunak mereka.

    Vendor-vendor tersebut berharap agen-agen ini akan mewujudkan janji sejati dari AI generatif: membuat pekerjaan perusahaan lebih efesien dan produktif. Meskipun mungkin memberikan manfaat, agen-agen ini bukanlah agen yang sesungguhnya kita inginkan. Mereka hanyalah otomatisasi sederhana dan tidak sesuai dengan definisi agen yang sebenarnya. Akibatnya, harapan perusahaan terhadap agen kemungkinan akan berujung pada kekecewaan dalam jangka pendek. Teknologi kunci masih absen dari agen-agen ini, dan mungkin diperlukan satu generasi evolusi AI lagi untuk menghadirkan manfaat yang diharapkan.

    Kekacauan Agen AI Saat Ini

    Tantangan utamanya adalah: Bagaimana kita mengembangkan model bahasa besar (LLM)—seperti GPT dari OpenAI dan Gemini dari Google—untuk beroperasi dalam rentang waktu panjang dengan tujuan yang luas; berinteraksi dengan lingkungannya, termasuk perangkat; terus-menerus mengambil dan menyimpan data; serta—tantangan terbesar—menetapkan tujuan dan strategi baru dari nol.

    Kita belum sampai di sana. Bahkan belum mendekati. Bot masa kini terbatas pada interaksi obrolan dan sering gagal di luar konteks operasional yang sempit itu. Misalnya, apa yang disebut Microsoft sebagai "agen" dalam suite produktivitas Microsoft 365, yang mungkin merupakan contoh agen paling terkenal, hanyalah cara untuk menghasilkan dokumen Word secara otomatis.

    Data pasar menunjukkan bahwa agen belum populer. [Sebuah studi](https://www.zdnet.com/article/anthropic-openai-enterprise-market-share-2025/#link={%22role%22:%22standard%22,%22href%22:%22https://www.zdnet.com/article/anthropic-openai-enterprise-market-share-2025/%22,%22target%22:%22%22,%22absolute%22:%22%22,%22linkText%22:%22A study this month%22}) yang dirilis bulan ini oleh firma modal ventura Menlo Ventures mengungkapkan bahwa area aplikasi AI dengan pertumbuhan tercepat hampir seluruhnya terdiri dari program co-pilot yang lebih sederhana, seperti ChatGPT Enterprise, Claude for Work, dan Microsoft Copilot, dibandingkan dengan AI agentik seperti Salesforce Agentforce, Writer, dan Glean.

    Otomatisasi sederhana tentu dapat memberikan manfaat, seperti membantu operator pusat panggilan atau menangani banyak faktur dengan cepat. Namun, semakin banyak laporan ilmiah dan teknis yang menyoroti keterbatasan agen masa kini, yang gagal berkembang melampaui otomatisasi dasar ini.

    Seperti yang ditunjukkan dengan ringkas oleh peneliti Gaurav Kumar dan Anna Rana dari Universitas Stanford dan sekolah bisnis IESE Universitas Navarra, dalam tinjauan tentang agen yang diterbitkan bulan ini, "Model Bahasa Besar telah menunjukkan kemampuan yang mengesankan dalam penalaran dan perencanaan [tetapi] agen berbasis LLM terus gagal dalam tugas perencanaan multi-langkah yang kompleks, sering menunjukkan pelanggaran batasan, pelacakan keadaan yang tidak konsisten, dan solusi rapuh yang gagal dengan perubahan kecil."

    Industri juga telah mencatat masalah ini. Seperti yang diungkapkan CEO Microsoft untuk bisnis komersial, Judson Althoff, bulan ini dalam konferensi teknologi Wall Street, "tingkat kegagalan proyek AI sangat tinggi, lebih dari 80%." Meski dia tidak menyebut agen secara spesifik, upaya mengimplementasikan agen kemungkinan termasuk aspek implementasi AI yang paling rumit.

    Ada banyak alat agentik yang tersedia saat ini, tetapi itu bukan jawabannya. Penawaran seperti Foundry IQ milik Microsoft memungkinkan perusahaan membangun ribuan jenis agen berbeda. Itu bagus, tetapi kekurangan agen melekat pada teknologinya di tingkat fundamental, dan alat yang canggih tidak akan menyelesaikan kekurangan tersebut.

    Microsoft dan raksasa lainnya memiliki banyak staf yang membantu pelanggan membangun "workflow agentik"—mereka mengirim tim "forward-deployed engineers" ke lokasi untuk memberikan bantuan langsung. Itu baik, tetapi bantuan langsung tidak akan memperbaiki kekurangan teknologi mendasar.

    Menunggu Reinforcement

    Sebelum agen dapat memenuhi hype "kode yang sepenuhnya otonom" dari Microsoft dan lainnya, mereka harus mengatasi dua kekurangan teknologi utama. Penelitian yang sedang berlangsung di seluruh industri berfokus pada dua tantangan ini:

    1. Mengembangkan pendekatan reinforcement learning untuk merancang agen.
    2. Merancang ulang penggunaan memori AI—bukan hanya chip memori seperti DRAM, tetapi seluruh fenomena penyimpanan dan pengambilan informasi.

      Reinforcement learning, [yang telah ada selama beberapa dekade dalam AI](https://www.zdnet.com/article/ai-scholars-win-turing-prize-for-technique-that-made-possible-alphagos-chess-triumph/#link={%22role%22:%22standard%22,%22href%22:%22https://www.zdnet.com/article/ai-scholars-win-turing-prize-for-technique-that-made-possible-alphagos-chess-triumph/%22,%22target%22:%22%22,%22absolute%22:%22%22,%22linkText%22:%22has been around for decades in AI%22}), telah menunjukkan hasil yang menakjubkan dalam memungkinkan AI menjalankan tugas dalam cakrawala waktu yang sangat panjang. Contoh paling terkenal adalah AlphaZero dari Google DeepMind, yang mampu merumuskan aturan untuk catur dan permainan Go dari nol, kemudian melanjutkan melalui seluruh permainan pada tingkat yang setara atau lebih baik daripada manusia. Itu semua berkat reinforcement learning.

      Reinforcement learning melibatkan program AI yang menghasilkan prediksi tentang imbalan yang akan dihasilkan dari mengambil tindakan dalam keadaan tertentu, yang dikenal sebagai lingkungan, lalu merumuskan kebijakan tindakan untuk memperoleh imbalan tersebut.

      Reinforcement learning semakin banyak digunakan untuk meningkatkan "penalaran" LLM tentang suatu masalah, seperti model AI DeepSeek yang menghebohkan dunia di awal tahun 2025.

      Beberapa proyek mencoba memperluas reinforcement learning melampaui fungsi penalaran untuk memungkinkan aktivitas berkelanjutan oleh agen. Mingyue Cheng dan rekan-rekannya di University of Science and Technology China pada November meluncurkan apa yang mereka sebut Agent-R1, suatu cara untuk melatih LLM dengan reinforcement learning untuk memprediksi imbalan dan merancang kebijakan. Cheng dan tim menekankan bahwa agen harus melampaui workflow otomatis dan prompt sederhana untuk mengambil pendekatan yang lebih otonom. Yuichiro Chino/Moment/Getty Images

      Tim peneliti menulis, "Alur kerja bergantung pada perutean atau perencanaan yang dirancang manusia, sementara agen otonom penuh menghilangkan alur kerja yang telah ditentukan dan berinteraksi dengan lingkungan secara proaktif melalui siklus tindakan-umpan balik ujung ke ujung."

      Untuk membangun sesuatu yang dapat menjalankan berbagai operasi tanpa terus-menerus diberi perintah, Cheng dan timnya harus menambahkan komponen ke LLM—seperti seorang orchestrator. Orchestrator ini memantau apa yang terjadi ketika sebuah agen menggunakan alat, misalnya memanggil program eksternal melalui API. Kemudian, ia memperbarui hal-hal seperti model lingkungan, imbalan (rewards), dan kebijakan (policy).

      Meskipun R1 lebih unggul daripada LLM yang di-prompt dalam tugas "multi-hop" (jenis tugas yang memiliki beberapa langkah berurutan), Cheng dan tim menekankan bahwa AI agenik, dalam pandangan mereka, adalah "bidang yang baru muncul."

      Mereka menulis, "Penerapan RL yang efektif untuk Agen LLM masih dalam tahap awal dan menghadapi tantangan yang cukup besar."

      Kelompok lain, yang dipimpin oleh Mingyang Sun dari Universitas Westlake, memperkenalkan "Sophia" bulan ini, yang mereka gambarkan sebagai "pembungkus" (wrapper) yang memungkinkan LLM menjalankan tugas dalam "durasi yang berkepanjangan" saat berinteraksi dengan peramban web.

      Sun dan tim menekankan bahwa Sophia adalah sebuah prototipe, lebih sebagai bukti konsep tentang cara menambahkan reinforcement learning ke LLM.

      Bahkan dalam pandangan optimis Sun dan tim, LLM masa kini masih jauh dari menjadi agen sejati. Mereka menulis, "Perkembangan pesat LLM telah mengangkat agen AI dari alat yang khusus tugas menjadi entitas pengambil keputusan berumur panjang, yang mampu merencanakan dan berkolaborasi secara strategis secara mandiri. Namun, sebagian besar arsitektur yang ada masih bersifat reaktif: mereka bergantung pada konfigurasi buatan manual yang tetap statis setelah penyebaran, dirancang untuk tugas sempit atau skenario tetap."

      Bagaimana Agen Belajar Sendiri

      Di cakrawala, muncul pergeseran signifikan dalam reinforcement learning itu sendiri, yang bisa menjadi berkah atau justru memperumit keadaan. Bisakah AI merancang reinforcement learning yang lebih baik daripada manusia?

      Itulah pertanyaan yang diajukan oleh unit DeepMind milik Google, pencipta AlphaZero, dalam sebuah studi yang diterbitkan bulan ini di majalah Nature. Sebuah program AI bernama DiscoRL secara otomatis menciptakan algoritma reinforcement learning yang lebih baik, yang pada gilirannya menghasilkan agen yang lebih unggul.

      Pendekatan DiscoRL adalah pendekatan meta-learning yang mengamati hasil dari beberapa agen dan kemudian menyempurnakan prediksi serta kebijakan yang dirumuskan setiap agen. Dengan demikian, ia dapat menyesuaikan agen untuk "lingkungan yang sangat berbeda," tidak seperti aturan reinforcement learning buatan manusia yang seringkali spesifik untuk masalah tertentu.

      Tim DeepMind menyebut pendekatan ini sebagai membiarkan agen "menemukan algoritma pembelajaran untuk diri mereka sendiri."

      Itu mungkin mempercepat seluruh bidang reinforcement learning dengan menghilangkan rancangan manusia, seperti halnya AlphaZero mengabaikan contoh permainan catur dan Go dari manusia, dan justru menguasai permainan dengan menemukan aturannya sendiri.

      Yang belum diketahui adalah seberapa umum pendekatan seperti itu dapat diterapkan. DeepMind menggambarkan bagaimana agen DiscoRL mencapai penguasaan dalam permainan video Atari seperti Ms. Pac-Man. Tapi itu adalah area di mana reinforcement learning sebelumnya telah terbukti berguna. Mungkinkah pendekatan seperti itu menguasai alur kerja manajemen hubungan pelanggan perusahaan atau pemrosesan klaim asuransi dari nol? Kita belum tahu.

      Menunggu Memori yang Sesungguhnya

      Terobosan teknologi kunci lainnya yang ditunggu adalah pemikiran ulang yang komprehensif tentang bagaimana agen menyimpan dan mengambil data, secara luas disebut sebagai penggunaan memori agen.

      Sebuah agen AI yang dikembangkan melalui reinforcement learning harus menjaga riwayat lingkungan, termasuk tindakan yang diambil dan posisi agen saat ini dalam kebijakan tindakan secara keseluruhan—fungsi yang terkait erat dengan memori.

      LLM masa kini kesulitan mempertahankan benang percakapan dalam banyak putaran. Siapa pun yang menggunakan chatbot untuk proyek besar akan menyadari bahwa kesalahan menjadi lebih sering, karena bot terkadang dapat salah menyisipkan informasi yang muncul jauh lebih awal dalam percakapan.

      Jenis kegagalan yang sama dalam rentang pekerjaan yang panjang juga diamati oleh para peneliti terkait agen.

      Kelompok Human-Centered AI Stanford, dalam laporan State of AI tahunan mereka yang diterbitkan pada April, mencatat bahwa kinerja agen tertinggal dari kemampuan manusia semakin lama mereka diminta untuk bekerja. "Dalam pengaturan berjangka pendek (anggaran dua jam), sistem AI teratas mencetak skor empat kali lebih tinggi daripada ahli manusia, tetapi seiring anggaran waktu bertambah, kinerja manusia melampaui AI—mengunggulinya dua banding satu dalam 32 jam."

      Dalam sebuah laporan yang diterbitkan bulan ini, penulis utama Yuyang Hu dari National University of Singapore dan institusi kolaborator menulis bahwa memori adalah kunci untuk meringankan kegagalan seperti itu.

      LLM tipikal hanya menggunakan data terbarunya, apa yang ada di "jendela konteksnya", seperti informasi paling baru yang Anda ketikkan dalam prompt. Namun, untuk menjadi "agen adaptif yang mampu beradaptasi terus-menerus melalui interaksi lingkungan," sebagaimana mereka katakan, agen memerlukan "informasi tambahan yang berasal dari interaksi sebelumnya, baik dalam tugas saat ini maupun di seluruh tugas yang telah diselesaikan sebelumnya."

      Banyak pekerjaan telah dihabiskan untuk pendekatan pengambilan informasi (retrieval), seperti Retrieval-Augmented Generation (RAG) dan basis data vektor. Nyatanya, Hu dan tim telah menyusun skema fantastis dari semua jenis memori yang dapat diakses agen. Patut dilihat lebih dekat:

      National University of Singapore

      Namun, memiliki riwayat dalam memori saja tidak cukup; pengelolaan memori itu sendiri harus berevolusi, demikian argumen Hu dan tim. Kontensi mereka, yang masih bersifat teoritis saat ini, adalah bahwa seluruh kendali atas memori pada akhirnya akan diciptakan ulang saat agen "belajar" tentang cara menyimpan dan mengambil data melalui reinforcement learning. Yuichiro Chino/Moment/Getty Images

      Dapat kita lihat bahwa ini merupakan masalah yang sedikit sirkular: pembelajaran penguatan memerlukan bentuk baru penyimpanan dan pengambilan memori komputer untuk berkembang, namun pengembangan bentuk baru manajemen memori itu sendiri mungkin bergantung pada pembelajaran penguatan.

      AGI Tidak Akan Menyelesaikannya

      Langkah-langkah besar semacam ini tidak akan terjadi dalam semalam. Ini bukan soal perusahaan tunggal, seperti DeepMind atau Microsoft, yang menawarkan LLM baru atau bahkan alat LLM baru. Yang dibutuhkan adalah lompatan teknologi.

      Hal-hal ini juga kecil kemungkinannya dapat secara ajaib diselesaikan dalam waktu dekat oleh Kecerdasan Umum Buatan (AGI), puncak legendaris AI di mana program mencapai suatu bentuk aktivitas cerdas yang setara, secara umum, dengan pemikiran manusia.

      Contoh terbesar pembelajaran penguatan yang pernah kita saksikan, AlphaZero, bukanlah kecerdasan umum; ia adalah pemecah masalah spesifik. Ia memecahkan catur karena aturan catur dapat didefinisikan dengan cermat, dan karena ia adalah permainan "informasi penuh," di mana lingkungan yang disebut, yaitu papan catur dan buah catur, dapat dideskripsikan secara eksplisit dan komplet.

      Hal tersebut tidak berlaku untuk praktik penagihan perusahaan, panggilan layanan pelanggan, dan manajemen tiket masalah TI. Sekali lagi, kita tidak tahu seberapa baik pendekatan DiscoRL akan digeneralisasi dari Atari ke tugas-tugas yang lebih rumit ini.

      Kesimpulannya: Mengingat kompleksitasnya merekayasa ulang pembelajaran penguatan dan memori, kita harus menunggu sangat lama. Dengan memperkirakan berapa lama waktu yang dibutuhkan dari LLM terobosan awal Google, Transformer, pada 2017, hingga keturunannya, ChatGPT, pada 2022, perkiraan optimis waktu yang dibutuhkan industri untuk mencapai agen yang andal adalah sekitar lima tahun lagi.

MEMBACA  Petunjuk dan Jawaban NYT Connections Edisi Olahraga 27 September: Cara Menyelesaikan Connections #369

Tinggalkan komentar