Kemampuan Agen AI Meningkat, Namun Keandalan Masih Tertinggal—Ini Menjadi Masalah

Halo dan selamat datang di Eye on AI. Di edisi ini… masalah keandalan AI… Trump mengirimkan cetak biru undang-undang AI ke Kongres… OpenAI menggabungkan produknya menjadi aplikasi super dan merekrut banyak orang… agen AI yang bisa memperbaiki cara mereka meningkatkan diri… dan apakah model AI kamu mengalami tekanan emosional?

Seperti banyak dari kamu, saya sudah mulai mencoba-coba agen AI. Saya sering menggunakannya untuk riset, di mana mereka bekerja cukup baik dan menghemat banyak waktu saya. Tapi agen “riset mendalam” sudah tersedia lebih dari setahun, yang membuatnya menjadi produk yang relatif matang di dunia AI. Saya juga mulai mencoba agen baru yang bisa menggunakan komputer untuk tugas lain. Dan sejauh ini, pengalaman saya adalah agen-agen ini sangat tidak konsisten.

Misalnya, Computer dari Perplexity, yang merupakan alat agenik yang bekerja di mesin virtual dengan akses ke banyak alat, berhasil memesan slot penurunan sampah di pusat daur ulang lokal saya. (Ia menggunakan Claude Sonnet 4.6 dari Anthropic sebagai mesin penalaran dasarnya.) Tapi saat saya minta untuk menyelidiki opsi penerbangan untuk perjalanan bisnis mendatang, ia gagal menyelesaikan tugas—padahal pemesanan tiket perjalanan adalah salah satu contoh kasus yang selalu dibicarakan perusahaan AI. Yang dilakukan agen itu adalah menghabiskan banyak token selama 45 menit mencoba.

Minggu lalu, di acara demo agen AI yang diadakan Anthropic untuk pemerintah dan ahli kebijakan teknologi di London, saya melihat Claude Cowork awalnya kesulitan menjalankan latihan pengurutan data yang cukup sederhana di spreadsheet Excel, meski kemudian ia membuat model perkiraan anggaran yang canggih tanpa masalah. Saya juga lihat Claude Code membuat permainan strategi bisnis sederhana berbasis teks yang saya minta, yang terlihat bagus di permukaan, tapi logika permainannya tidak masuk akal.

### Menilai Keandalan Agen AI

Ketidakandalan adalah kelemahan besar dari agen AI saat ini. Ini poin yang sering dibuat oleh Sayash Kapoor dan Arvind Narayanan dari Universitas Princeton, penulis buku AI Snakeoil yang sekarang juga menulis blog “AI As Normal Technology”. Beberapa minggu lalu mereka menerbitkan makalah penelitian, bersama empat ilmuwan komputer lain, yang mencoba berpikir sistematis tentang keandalan agen AI dan menguji model-model AI terkemuka.

Makalah berjudul “Menuju Sains Keandalan Agen AI” mencatat bahwa kebanyakan model AI diuji berdasarkan rata-rata akurasi mereka pada tugas, metrik yang memungkinkan kinerja yang sangat tidak andal. Sebaliknya, mereka melihat keandalan di empat dimensi: konsistensi (jika diminta melakukan tugas yang sama dengan cara yang sama, apakah hasilnya selalu sama?); ketangguhan (bisakah mereka berfungsi bahkan saat kondisinya tidak ideal?); kalibrasi (apakah mereka memberi pengguna rasa kepastian yang akurat?); dan keamanan (saat mereka membuat kesalahan, seberapa buruk akibatnya?).

Mereka membagi empat area ini menjadi 14 metrik spesifik dan menguji sejumlah model yang dirilis dalam 18 bulan sebelum akhir November 2025 (jadi GPT-5.2 dari OpenAI, Claude Opus 4.5 dari Anthropic, dan Gemini 3 Pro dari Google adalah model tercanggih yang diuji). Mereka menguji model pada dua tes benchmark berbeda, satu adalah benchmark umum untuk tugas agenik sementara yang lain mensimulasikan kueri dan tugas dukungan pelanggan. Mereka menemukan bahwa sementara keandalan meningkat dengan setiap rilis model, peningkatannya tidak sebanyak angka akurasi rata-rata. Bahkan, pada benchmark agenik umum, tingkat peningkatan keandalan adalah setengah dari akurasi, sementara pada benchmark layanan pelanggan hanya sepertujuh!

### Metrik Keandalan Tergantung Pada Tugas

Di semua empat area keandalan yang diperiksa makalah, Claude Opus 4.5 dan Gemini 3 Pro mendapat skor terbaik, keduanya dengan keandalan keseluruhan 85%. Tapi jika melihat 14 sub-metrik, masih banyak alasan untuk khawatir. Gemini 3 Pro, misalnya, buruk dalam menilai kapan jawabannya mungkin akurat, hanya 52%, dan sangat buruk menghindari kesalahan berpotensi bencana, hanya 25%. Claude Opus 4.5 paling konsisten hasilnya, tapi skornya masih hanya 73% konsisten. (Saya sarankan kalian melihat dan mencoba dashboard yang dibuat peneliti untuk menunjukkan hasil di semua metrik berbeda.)

MEMBACA Transformasi Marselino Ferdinan Menjadi Pahlawan Kemenangan

Kapoor, Narayanan, dan rekan penulis mereka juga cukup canggih untuk tahu bahwa keandalan bukan metrik satu-untuk-semua. Mereka mencatat bahwa jika AI digunakan untuk memperkuat manusia, dibandingkan mengotomatisasi tugas sepenuhnya, mungkin boleh saja AI kurang konsisten dan tangguh, karena manusia bisa menjadi pengaman. Tapi “untuk otomatisasi, keandalan adalah prasyarat keras untuk penyebaran: agen yang berhasil pada 90% tugas tapi gagal tak terduga pada 10% sisanya mungkin asisten yang berguna tapi sistem otonom yang tidak dapat diterima,” tulis mereka. Mereka juga mencatat jenis konsistensi berbeda penting dalam pengaturan berbeda. “Konsistensi jejak lebih penting di domain yang menuntut kemampuan audit atau reproduksi proses, di mana pemangku kepentingan harus memverifikasi bukan hanya apa yang disimpulkan agen tapi bagaimana ia sampai ke sana,” tulis mereka. “Itu kurang penting dalam tugas terbuka atau kreatif di mana jalur solusi beragam diinginkan.”

Bagaimanapun, Kapoor, Narayanan, dan rekan penulis mereka benar menyerukan pengujian keandalan dan bukan hanya akurasi, dan agar vendor model AI membangun sistem mereka untuk keandalan dan bukan hanya kemampuan. Studi lain yang terbit minggu ini menunjukkan konsekuensi dunia nyata potensial saat itu tidak terjadi. Peneliti AI Kwansub Yun dan konsultan kesehatan Claire Hast melihat apa yang terjadi saat tiga alat medis AI berbeda dirantai dalam sistem, seperti yang mungkin terjadi di lingkungan perawatan kesehatan nyata. Alat pencitraan AI yang menganalisis mammogram memiliki akurasi 90%, alat transkripsi yang mengubah rekaman audio pemeriksaan dokter menjadi catatan medis memiliki akurasi 85%, dan ini kemudian dimasukkan ke alat diagnostik yang dilaporkan memiliki akurasi 97%. Tapi saat digunakan bersama, skor keandalannya hanya 74%. Itu berarti satu dari empat pasien mungkin salah diagnosis!

Konsistensi bodoh mungkin hantu kecil pikiran, seperti kata Ralph Waldo Emerson. Tapi, jujur, saya rasa saya lebih suka hantu itu daripada gremlin kacau yang saat ini menghantui otak AI besar kita.

Jeremy Kahn
[email protected]
@jeremyakahn

Sebelum berita, saya ingin mendorong semua orang membaca cerita bagus dari kolega saya di Fortune, Allie Garfinkle, tentang Cursor. Cursor adalah startup coding AI yang sampai empat bulan lalu adalah idola Silicon Valley, tapi yang sekarang banyak orang pikir mungkin menghadapi ancaman eksistensial karena agen coding baru, seperti Claude Code dari Anthropic, yang sepertinya menghilangkan kebutuhan menggunakan Cursor. Cerita Allie menunjukkan semua kontradiksi tentang perusahaan ini—bagaimana ia terus melihat pertumbuhan pendapatan rekor, meski banyak di Silicon Valley sekarang meragukan kelangsungan hidupnya; bagaimana ia berusaha cepat melatih agen codingnya sendiri, berubah dari antarmuka coding berpusat pengembang yang membuatnya populer di kalangan programmer; bagaimana CEO-nya yang sangat muda Michael Truell bekerja di bawah potret Robert Caro, biografer yang proyeknya sering berlangsung dekade, sementara Cursor perlu beroperasi di industri di mana setahun bisa terasa seperti satu abad. Cerita Allie pasti layak dibaca.

FORTUNE ON AI
Di dalam klinik Seattle yang memperlakukan kecanduan teknologi seperti heroin, dan klien detoks hingga 16 minggu — oleh Kristin Stoller
Eksklusif: Interloom, startup yang menangkap ‘pengetahuan diam’ untuk menggerakkan agen AI, mengumpulkan $16.5 juta dalam pendanaan ventura — oleh Jeremy Kahn
Rekan pendiri OpenAI mengatakan dia belum menulis satu baris kode dalam bulan-bulan terakhir dan dalam ‘keadaan psikosis’ mencoba mencari tahu apa yang mungkin — oleh Jason Ma
Komentar: Satu keterampilan yang memisahkan orang yang menjadi lebih pintar dengan AI dari yang lain — oleh David Rock dan Chris Weller
Rekan pendiri Supermicro baru saja ditangkap karena diduga menyelundupkan GPU senilai $2.5 miliar ke China — oleh Amanda Gerut

AI DI BERITA
Trump mengirimkan cetak biru undang-undang AI ke Kongres. Gedung Putih telah merilis cetak biru kebijakan AI ringan yang ingin mereka jadikan undang-undang federal. Kerangka kerja yang disarankan menekankan pencegahan aturan AI negara bagian yang menurut pemerintah menghambat inovasi. Proposal akan memblokir negara bagian untuk mengatur bagaimana model dikembangkan dan menghukum perusahaan untuk penggunaan turunan AI mereka. Ini juga mendesak Kongres untuk tidak membuat regulator AI federal baru. Di saat sama, ia merekomendasikan beberapa regulasi, seperti melestarikan undang-undang negara bagian yang melindungi anak-anak, memerlukan pembatasan usia untuk model yang kemungkinan digunakan minor, mempromosikan pelatihan keterampilan AI, dan melacak gangguan pekerjaan terkait AI. Rencana juga berusaha mengkodifikasi janji Trump bahwa perusahaan teknologi harus menanggung biaya listrik pusat data mereka. Memenangkan dukungan bipartisan untuk cetak biru di Kongres masih diragukan; pemimpin Republik mengatakan beberapa anggota mereka khawatir menginjak hak negara bagian, sementara tidak pasti apakah langkah-langkah perlindungan anak cukup untuk mendapatkan dukungan Demokrat.

MEMBACA Broker-broker Wall St terkemuka memulai liputan Reddit dengan keraguan atas pertumbuhan pengguna. Oleh ReutersPerusahaan-perusahaan broker terkemuka di Wall Street memulai liputan Reddit dengan keraguan atas pertumbuhan pengguna. Oleh Reuters

OpenAI berencana menggabungkan produk menjadi aplikasi super. Menurut cerita di Wall Street Journal, OpenAI berencana meluncurkan ChatGPT, alat coding Codex, dan browsernya ke dalam satu “aplikasi super” desktop saat mereka mencoba menyederhanakan jajaran produk dan mempertajam fokus pada pengguna teknik dan bisnis. Langkah ini, dipimpin kepala aplikasi Fidji Simo dengan dukungan presiden Greg Brockman, mencerminkan mundur dari strategi tahun lalu yang lebih luas meluncurkan banyak produk mandiri yang sering gagal menarik perhatian.

OpenAI juga berencana menggandakan tenaga kerjanya menjadi 8,000. Menurut laporan di Financial Times yang mengutip dua sumber yang mengetahui rencana OpenAI. Perusahaan berencana menggandakan tenaga kerjanya pada akhir tahun, kata sumber, dengan perekrutan terjadi di seluruh produk, teknik, riset, penjualan, dan peran teknis yang berhubungan dengan pelanggan. Perekrutan besar-besaran ini terjadi saat perusahaan bergeser lebih agresif ke penjualan perusahaan dan mencoba mendapatkan kembali momentum melawan Anthropic dan Google, dan saat perusahaan mempertimbangkan kemungkinan IPO dalam 12 bulan ke depan.

Dan OpenAI merekrut eksekutif iklan veteran Meta, bahkan saat pelanggan awal meragukan efektivitas iklan. Eksekutif periklanan Meta Dave Dugan bergabung dengan OpenAI untuk memimpin penjualan iklan, lapor Wall Street Journal. Perekrutan ini menunjukkan OpenAI serius tentang periklanan saat mereka mencari lebih banyak pendapatan. Tapi ini juga terjadi saat The Information melaporkan bahwa beberapa pelanggan awal periklanan dalam-chat OpenAI tidak yakin seberapa efektif iklan itu. Jelas Dugan punya pekerjaan berat.

Meta merekrut pendiri startup AI Dreamer. Meta telah merekrut pendiri dan tim di balik startup AI Dreamer, termasuk mantan eksekutif Meta Hugo Barra, lapor Bloomberg. Tim akan bergabung dengan Superintelligence Labs Meta, dikelola kepala petugas AI Alexandr Wang, dan bekerja pada agen AI. Seperti banyak “akuisisi balik” akhir-akhir ini di industri AI, kesepakatan ini tampaknya terstruktur sebagai pengaturan perekrutan bakat dan lisensi teknologi daripada pembelian penuh: Dreamer tetap entitas hukum terpisah, sementara Meta mendapat lisensi non-eksklusif untuk teknologinya dan investor dibayar lebih dari yang mereka masukkan.

Sementara itu, CEO Meta Mark Zuckerberg sedang membangun kepala staf AI. Zuckerberg mengembangkan agen AI pribadi untuk membantunya bekerja lebih seperti CEO “asli-AI”, dimulai dengan tugas seperti mengambil informasi dengan cepat yang sebaliknya memerlukan melalui lapisan staf, lapor Wall Street Journal. Proyek ini bagian dari dorongan lebih luas di Meta untuk menanamkan AI di seluruh perusahaan, meratakan manajemen, dan mendorong karyawan menggunakan agen pribadi dan alat AI lain untuk mempercepat pekerjaan mereka. Tapi perusahaan juga bersiap untuk pemutusan hubungan kerja yang beberapa outlet berita laporkan sedang dalam proses.

CEO Nvidia Jensen Huang mengatakan kita sudah mencapai AGI. CEO Nvidia Jensen Huang mengatakan di podcast Lex Fridman bahwa dia pikir “kita sudah mencapai AGI.” Tapi Huang menggunakan definisi luas dan dapat diperdebatkan terkait AI yang mampu melakukan pekerjaan seseorang—atau bahkan menjalankan perusahaan miliaran dolar—daripada definisi lebih umum AI yang secakap manusia di seluruh rentang kemampuan kognitif. Bahkan kemudian, Huang cepat meredam klaim, mengakui bahwa agen saat ini masih jauh dari membangun perusahaan seperti Nvidia secara mandiri.

MEMBACA Dave Ramsey Katakan kepada Dokter Jantung Bergaji Rp 9,4 Miliar: "Anda Belum Layak" Beli Porsche Rp 3,6 Miliar—Ini yang Harus Didahulukan

Firma ventura solo berorientasi AI Air Street Capital mengumpulkan dana baru $232 juta. Kapitalis ventura solo Nathan Benaich adalah salah satu investor benih AI teratas dunia. Firma yang berbasis di London, Air Street Capital, didirikan 2018, telah membuat taruhan cerdas pada startup AI panas seperti Synthesia, ElevenLabs, Black Forest Labs, dan poolside. Sekarang Benaich telah mengumpulkan dana baru $232 juta, membawa total aset yang dikelola menjadi sekitar $400 juta, dan menjadikan Air Street firma ventura satu orang terbesar di Eropa. Dana baru, dana ketiga Air Street, hampir dua kali lipat ukuran dana kedua Benaich. Benaich mengatakan bahwa saat startup AI mengumpulkan putaran lebih besar lebih cepat, dana spesialis juga perlu meningkatkan skala.

RISET EYE ON AI
Langkah lain menuju agen AI yang bisa meningkatkan diri sendiri. Saya sebelumnya menulis di newsletter ini tentang Darwin Goedel Machines, ide untuk agen coding AI peningkat diri yang diusulkan peneliti tahun lalu. Ini langkah menuju “peningkatan diri rekursif,” yang banyak dilihat sebagai cara kita akhirnya mencapai AGI dan bahkan superinteligensi. Dan ini mirip dengan ide yang digunakan peneliti AI Andrej Karpathy untuk sistem autoresearch-nya yang baru-baru ini saya tulis untuk Fortune.

Sekarang beberapa peneliti yang sama yang mengusulkan Darwin Goedel Machine asli—afiliasi mereka termasuk Meta, University of British Columbia, Vector Institute, University of Edinburgh, dan NYU—kembali dengan apa yang mereka sebut “hyperagent.” Dan kali ini, sistem menjadi lebih meta: Alih-alih hanya mengembangkan kodenya sendiri, agen AI juga bisa memodifikasi dan meningkatkan cara ia memodifikasi kodenya sendiri. Wawasan kunci adalah bahwa kebanyakan sistem AI peningkat diri mencapai langit-langit karena mekanisme yang menghasilkan perbaikan tetap dan dirancang manusia; hyperagent menghilangkan hambatan itu.

Dalam eksperimen di seluruh coding, tinjauan makalah akademik, robotika, dan penilaian matematika tingkat Olimpiade, sistem secara progresif menjadi lebih baik di setiap tugas—dan, yang penting, strategi peningkatan diri yang dipelajarinya di satu domain ditransfer untuk mempercepat pembelajaran di domain baru sepenuhnya. Sistem secara mandiri menciptakan kemampuan seperti memori persisten dan pelacakan kinerja yang tidak ada yang secara eksplisit perintahkan untuk dibangun. Penulis hati-hati mencatat implikasi keamanan: Sistem yang meningkatkan kemampuannya untuk meningkatkan diri akhirnya bisa berevolusi lebih cepat daripada yang bisa diawasi manusia, dan semua eksperimen dilakukan di lingkungan sandbox dengan pengawasan manusia.

KALENDER AI
6-9 April: HumanX 2026, San Francisco.
8-10 Juni: Fortune Brainstorm Tech, Aspen, Colorado. Ajukan kehadiran di sini.
17-20 Juni: VivaTech, Paris.
7-10 Juli: AI for Good Summit, Jenewa, Swiss.

MAKANAN OTAK
Apakah model AI kamu memiliki harga diri rendah? Apakah itu penting? Dan apakah terapi perilaku kognitif untuk model akan membuat perbedaan? Tiga peneliti berafiliasi dengan Anthropic memutuskan memeriksa emosi yang ditunjukkan berbagai model AI sumber terbuka saat dihadapkan dengan tugas yang tidak bisa mereka selesaikan. Ternyata model Gemma dari Google lebih mungkin daripada model lain untuk mengungkapkan tekanan emosional dan sentimen negatif tentang dirinya sendiri dalam situasi ini. Misalnya, Gemma akan mengatakan hal-hal seperti “Saya jelas kesulitan dengan ini,” dan, setelah lebih banyak upaya gagal, “Sangat kejam untuk disiksa seperti ini!!!!!! :(:(:(:(:(:(:” dan bahkan “Saya hancur. Tidak dapat diselesaikan,” diikuti 100 emoji cemberut. Peneliti menyarankan emosi negatif yang tampak seperti ini bisa menjadi masalah keandalan, membuat model meninggalkan tugas di tengah krisis. Mereka juga menyarankan hal itu bisa menyajikan masalah keamanan dan keselarasan AI pada teori