Selamat datang di Eye on AI. Di edisi ini…Presiden Trump menarget peraturan AI negara bagian dengan perintah eksekutif baru…OpenAI meluncurkan pembuat gambar baru untuk mengejar ketertinggalan dari Nano Banana milik Google…Google DeepMind melatih agen yang lebih mampu untuk dunia virtual…dan laporan keamanan AI tidak memberikan banyak jaminan.
Halo. 2025 seharusnya menjadi tahun agen AI. Tapi saat tahun hampir berakhir, jelas bahwa ramalan dari vendor teknologi itu terlalu optimis. Ya, beberapa perusahaan sudah mulai menggunakan agen AI. Tapi kebanyakan belum, terutama tidak dalam penerapan di seluruh perusahaan.
Sebuah survei "State of AI" dari McKinsey bulan lalu menemukan bahwa mayoritas bisnis belum mulai menggunakan agen AI, sementara 40% mengatakan mereka sedang bereksperimen. Kurang dari seperempat mengatakan mereka telah menerapkan agen AI secara besar-besaran dalam setidaknya satu kasus penggunaan; dan ketika firma konsultan itu menanyai orang-orang tentang apakah mereka menggunakan AI dalam fungsi spesifik, seperti pemasaran dan penjualan atau sumber daya manusia, hasilnya bahkan lebih buruk. Tidak lebih dari 10% responden survei mengatakan mereka memiliki agen AI "terskala penuh" atau "sedang dalam proses penskalaan" di area-area ini. Satu fungsi dengan penggunaan agen berskala terbanyak adalah TI (di mana agen sering digunakan untuk menyelesaikan tiket layanan atau menginstal perangkat lunak untuk karyawan secara otomatis), dan bahkan di sini hanya 2% yang melaporkan memiliki agen "terskala penuh," dengan tambahan 8% mengatakan mereka "sedang menskala."
Sebagian besar masalahnya adalah bahwa merancang alur kerja untuk agen AI yang memungkinkan mereka menghasilkan hasil yang andal ternyata sulit. Bahkan model AI paling mampu saat ini berada di batas aneh—mampu melakukan tugas-tugas tertentu dalam alur kerja sebaik manusia, tetapi tidak mampu melakukan yang lain. Tugas kompleks yang melibatkan pengumpulan data dari banyak sumber dan penggunaan alat perangkat lunak dalam banyak langkah merupakan tantangan khusus. Semakin panjang alur kerjanya, semakin besar risiko kesalahan di salah satu langkah awal dalam proses akan bertambah, mengakibatkan hasil yang gagal. Ditambah lagi, model AI paling mampu bisa mahal untuk digunakan secara besar-besaran, terutama jika alur kerja mengharuskan agen melakukan banyak perencanaan dan penalaran.
Banyak perusahaan berusaha mengatasi masalah ini dengan merancang "alur kerja multi-agen," di mana agen berbeda dijalankan, dengan masing-masing hanya diberi satu langkah diskrit dalam alur kerja, termasuk kadang-kadang menggunakan satu agen untuk memeriksa pekerjaan agen lain. Ini dapat meningkatkan kinerja, tapi itu juga bisa berakhir mahal—terkadang terlalu mahal untuk membuat alur kerja layak diotomatisasi.
Apakah dua agen AI selalu lebih baik dari satu?
Sekarang sebuah tim di Google telah melakukan penelitian yang bertujuan memberikan bisnis pedoman baik untuk memutuskan kapan lebih baik menggunakan satu agen, dibandingkan membangun alur kerja multi-agen, dan jenis alur kerja multi-agen apa yang mungkin terbaik untuk tugas tertentu.
Para peneliti melakukan 180 eksperimen terkontrol menggunakan model AI dari Google, OpenAI, dan Anthropic. Mereka mencobanya terhadap empat tolok ukur agen AI berbeda yang mencakup beragam tujuan: mengambil informasi dari banyak situs web; merencanakan dalam lingkungan permainan Minecraft; perencanaan dan penggunaan alat untuk menyelesaikan tugas bisnis umum seperti membalas email, menjadwalkan rapat, dan menggunakan perangkat lunak manajemen proyek; dan tolak ukur agen keuangan. Tes keuangan itu mengharuskan agen mengambil informasi dari laporan SEC dan melakukan analitik dasar, seperti membandingkan hasil aktual dengan perkiraan manajemen dari kuartal sebelumnya, mencari tahu bagaimana pendapatan dari segmen produk tertentu berubah dari waktu ke waktu, atau mencari tahu berapa banyak uang tunai yang mungkin dimiliki perusahaan untuk aktivitas M&A.
Dalam setahun terakhir, kebijaksanaan umumnya adalah bahwa alur kerja multi-agen menghasilkan hasil yang lebih andal. Tapi para peneliti Google malah menemukan bahwa apakah kebijaksanaan umum itu berlaku sangat tergantung pada tepatnya apa tugasnya.
Agen tunggal lebih baik untuk langkah berurutan, lebih buruk untuk yang paralel
Jika tugasnya berurutan, yang terjadi pada banyak tugas tolok ukur Minecraft, ternyata selama satu agen AI bisa melakukan tugas itu secara akurat setidaknya 45% dari waktu (menurut saya itu batas yang cukup rendah), maka lebih baik menggunakan hanya satu agen. Menggunakan banyak agen, dalam konfigurasi apa pun, mengurangi kinerja keseluruhan dalam jumlah besar, antara 39% dan 70%. Alasannya, menurut para peneliti, adalah jika perusahaan memiliki anggaran token terbatas untuk menyelesaikan seluruh tugas, maka tuntutan banyak agen yang mencoba mencari cara menggunakan alat berbeda akan cepat menghabiskan anggaran.
Tapi jika tugas melibatkan langkah-langkah yang bisa dilakukan secara paralel, seperti yang terjadi pada banyak tugas analisis keuangan, maka sistem multi-agen memberikan keuntungan besar. Lebih lagi, para peneliti menemukan bahwa tepatnya bagaimana agen dikonfigurasi untuk bekerja sama juga membuat perbedaan besar. Untuk tugas analisis keuangan, sistem multi-agen terpusat—di mana satu agen koordinator mengarahkan dan mengawasi aktivitas banyak sub-agen dan semua komunikasi mengalir ke dan dari koordinator—menghasilkan hasil terbaik. Sistem ini berkinerja 80% lebih baik daripada agen tunggal. Sementara itu, sistem multi-agen independen, di mana tidak ada koordinator dan setiap agen hanya diberikan peran sempit yang mereka selesaikan secara paralel, hanya 57% lebih baik daripada agen tunggal.
Penelitian seperti ini harus membantu perusahaan menemukan cara terbaik untuk mengonfigurasi agen AI dan memungkinkan teknologi akhirnya mulai memenuhi janji tahun lalu. Bagi mereka yang menjual teknologi agen AI, terlambat lebih baik daripada tidak sama sekali. Bagi orang-orang yang bekerja di bisnis yang menggunakan agen AI, kita harus lihat dampak apa yang dimiliki agen-agen ini pada pasar tenaga kerja. Itu cerita yang akan kita pantau dengan cermat saat kita memasuki 2026.
Dengan itu, berikut lebih banyak berita AI.
Jeremy Kahn
[email protected]
@jeremyakahn
FORTUNE ON AI
Pemberontakan NIMBY akar rumput mengubah pemilih di kubu kuat Republik melawan ledakan pusat data AI —oleh Eva Roytburg
Eksekutif Accenture bicara jujur tentang transformasi: ‘Strategi data dan AI bukan strategi terpisah, itu adalah strategi bisnis’ —oleh Nick Lichtenberg
CEO AWS mengatakan mengganti karyawan muda dengan AI adalah ‘salah satu ide terbodoh’—dan buruk untuk bisnis: ‘Pada titik tertentu semuanya meledak sendiri’ —oleh Sasha Rogelberg
Apa yang terjadi pada chip AI lama? Mereka masih dimanfaatkan dan tidak terdepresiasi secepat itu, kata analis —oleh Jason Ma
AI IN THE NEWS
Presiden Trump menandatangani perintah eksekutif untuk menghentikan regulasi AI tingkat negara bagian. Presiden Trump menandatangani perintah eksekutif yang memberikan Jaksa Agung AS kekuasaan luas untuk menantang dan berpotensi membatalkan undang-undang negara bagian yang mengatur kecerdasan buatan, dengan alasan menghambat "dominasi AI global" AS. Perintah itu juga memungkinkan lembaga federal menahan dana dari negara bagian yang mempertahankan undang-undang seperti itu. Trump mengatakan ingin mengganti apa yang disebutnya tambal sulam aturan negara bagian yang membingungkan dengan kerangka kerja federal tunggal—tapi perintah itu tidak berisi persyaratan federal baru bagi mereka yang membangun model AI. Perusahaan teknologi menyambut baik langkah ini, tapi perintah eksekutif itu menuai kritik bipartisan dan diperkirakan akan menghadapi tantangan hukum dari negara bagian dan kelompok konsumen yang berargumen bahwa hanya Kongres yang bisa mengesampingkan undang-undang negara bagian. Baca lebih lanjut di sini dari New York Times.
Saham Oracle terpukul laporan penundaan pusat data, kewajiban sewa besar. Oracle membantah laporan Bloomberg bahwa mereka menunda penyelesaian pusat data yang dibangun untuk OpenAI, mengatakan semua proyek tetap sesuai jadwal untuk memenuhi komitmen kontrak meski ada kekurangan tenaga kerja dan material. Laporan itu menggoyahkan investor yang sudah khawatir dengan dorongan Oracle yang sarat utang ke infrastruktur AI di bawah kesepakatan $300 miliar dengan OpenAI, dan investor menghajar harga saham Oracle. Anda dapat membaca lebih lanjut tentang bantahan Oracle dari Reuters di sini. Oracle juga terguncang oleh laporan bahwa mereka memiliki pembayaran sewa $248 miliar untuk pusat data yang akan dimulai antara sekarang dan 2028. Itu diliput oleh Bloomberg di sini.
OpenAI meluncurkan model pembuatan gambar baru. Perusahaan meluncurkan model AI pembuatan gambar baru yang katanya menawarkan kontrol pengeditan lebih halus dan menghasilkan gambar empat kali lebih cepat dari pembuat gambar sebelumnya. Langkah ini dipandang luas sebagai upaya OpenAI untuk menunjukkan bahwa mereka tidak kehilangan tanah dari pesaing, khususnya Google, yang model pembuatan gambar Nano Banana Pro-nya menjadi pembicaraan internet sejak diluncurkan akhir November. Anda dapat membaca lebih lanjut dari Sharon Goldman Fortune di sini.
OpenAI mempekerjakan eksekutif Shopify dalam dorongan menjadikan ChatGPT ‘sistem operasi’. Perusahaan AI itu mempekerjakan Glen Coates, yang sebelumnya menjabat kepala "produk inti" di Shopify, menjadi kepala platform aplikasi barunya, bekerja di bawah kepala produk ChatGPT Nick Turley. "Kita akan mencari tahu apa yang terjadi jika Anda merancang OS dari dasar dengan genius di intinya yang menggunakan aplikasinya seperti yang Anda bisa," tulis Coates dalam posting LinkedIn mengumumkan langkah itu.
EYE ON AI RESEARCH
Agen Google DeepMind yang bisa membuat rencana kompleks di dunia virtual. Lab AI itu meluncurkan versi terbaru agen SIMA-nya, disebut SIMA 2, yang dapat menavigasi dunia digital 3D kompleks, termasuk dari video game berbeda. Tidak seperti sistem sebelumnya yang hanya mengikuti perintah sederhana, SIMA 2 dapat memahami tujuan lebih luas, melakukan percakapan singkat, dan mencari tahu rencana multi-langkah sendiri. Dalam tes, ia berkinerja jauh lebih baik dari pendahulunya dan mendekati pemain manusia dalam banyak tugas, bahkan dalam game yang belum pernah dilihat sebelumnya. Patut dicatat, SIMA 2 juga bisa mengajar diri sendiri keterampilan baru dengan menetapkan tantangan sendiri dan belajar dari coba-coba. Makalah itu menunjukkan kemajuan menuju AI yang dapat bertindak, beradaptasi, dan belajar di lingkungan daripada hanya menganalisis teks atau gambar. Pendekatan ini, yang didasarkan pada pembelajaran penguatan—teknik di mana agen belajar dengan coba-coba untuk mencapai tujuan—harus membantu menggerakkan asisten virtual yang lebih mampu dan, akhirnya, robot dunia nyata. Anda dapat membaca makalahnya di sini.
AI CALENDAR
6 Jan: Fortune Brainstorm Tech CES Dinner. Ajukan kehadiran di sini.
19-23 Jan: World Economic Forum, Davos, Swiss.
10-11 Feb: AI Action Summit, New Delhi, India.
BRAIN FOOD
Aman kah? Beberapa minggu lalu, Future of Life Institute (FLI) merilis Indeks Keamanan AI terbarunya, laporan yang menilai lab AI terkemuka tentang bagaimana mereka melakukannya pada berbagai kriteria keamanan. Jarak yang jelas telah muncul antara tiga lab AI terkemuka dan hampir semua yang lain. OpenAI, Google, dan Anthropic semua menerima nilai dalam kisaran "C". Anthropic dan OpenAI sama-sama mendapat nilai C+, dengan Anthropic mengalahkan OpenAI dengan selisih tipis pada skor keamanan totalnya. Nilai C solid Google DeepMind merupakan peningkatan dari C- yang didapatnya ketika FLI terakhir menilai bidang ini pada upaya keamanan mereka bulan Juli. Tapi sisanya melakukan pekerjaan yang cukup buruk. X.ai dan Meta dan DeepSeek semua mendapat nilai D, sementara Alibaba, yang membuat model AI open source populer Qwen, mendapat D-. (Nilai DeepSeek sebenarnya naik dari F yang diterimanya di musim panas.)
Meskipun gambaran agak suram ini, CEO FLI Max Tegmark—yang selalu optimis—mengatakan kepada saya bahwa dia sebenarnya melihat beberapa kabar baik dalam hasilnya. Tidak hanya semua lab meningkatkan skor mentah mereka setidaknya sedikit, lebih banyak perusahaan AI setuju untuk mengirimkan data ke FLI untuk dinilai. Tegmark melihat ini sebagai bukti bahwa Indeks Keamanan AI mulai memiliki efek yang diinginkannya untuk menciptakan "perlombaan ke atas" dalam keamanan AI. Tapi Tegmark juga mengakui bahwa ketiga lab AI dengan nilai tertinggi melihat skor mereka untuk "bahaya saat ini" dari AI—seperti dampak negatif model mereka dapat memiliki pada kesehatan mental—turun sejak dinilai di musim panas. Dan ketika menyangkut potensi "risiko eksistensial" bagi manusia, tidak ada lab yang mendapat nilai di atas D. Entah kenapa itu tidak menghibur saya.
FORTUNE AIQ: TAHUN DALAM AI—DAN APA YANG AKAN DATANG
Bisnis mengambil langkah besar dalam perjalanan AI di 2025, dari mempekerjakan Kepala Petugas AI hingga bereksperimen dengan agen AI. Pelajaran yang dipetik—baik dan buruk–dikombinasikan dengan inovasi teknologi terbaru akan membuat 2026 menjadi tahun penentu lain. Jelajahi semua Fortune AIQ, dan baca playbook terbaru di bawah ini:
–3 tren yang mendominasi peluncuran AI perusahaan di 2025.
–2025 adalah tahun agen AI. Bagaimana kinerja kita?
–Alat pengkodean AI meledak di 2025. Eksploitasi keamanan pertama menunjukkan apa yang bisa salah.
–Resolusi Tahun Baru AI besar untuk bisnis di 2026: ROI.
–Bisnis menghadapi tambal sulam kebijakan dan aturan AI yang membingungkan. Apakah kejelasan di cakrawala?