Halo dan selamat datang di Eye on AI… Di edisi kali ini: ‘SaaS Apocalypse’ belum terjadi… OpenAI dan Anthropic meluncurkan model baru dengan dampak besar untuk keamanan siber… Gedung Putih pertimbangkan pembatasan sukarela pembangunan pusat data supaya tagihan listrik konsumen tidak naik drastis… mengapa dua metrik AI yang sering dikutip kemungkinan salah… dan mengapa kita semakin sulit tahu apakah model AI aman.
Para investor perlu tenang. Itu kesimpulan saya setelah melihat gejolak pasar pekan lalu. Khususnya, investor sebaiknya mencari psikoanalis aliran Kleinian. Ini karena mereka sepertinya terjebak dalam apa yang disebut posisi "paranoid-skizoid"—berayun liar antara melihat dampak AI pada perusahaan software lama sebagai "semuanya bagus" atau "semuanya buruk." Pekan lalu, mereka berayun ke "semuanya buruk" dan, menurut perkiraan Goldman Sachs, menghapus sekitar $2 triliun dari nilai pasar saham. Minggu ini sejauh ini, semuanya bagus lagi, dan S&P 500 bangkit mendekati rekor tertinggi (meski vendor software SaaS hanya dapat keuntungan kecil dan gejolak mungkin merenggut setidaknya satu CEO: CEO Workday Carl Eschenbach mengumumkan mundur dan digantikan oleh pendiri bersama dan mantan CEO Aneel Bhusri.) Tapi ada banyak nuansa di sini yang terlewatkan pasar. Investor suka narasi sederhana. Perlombaan AI perusahaan saat ini lebih seperti novel Rusia.
Pada berbagai kesempatan dua tahun terakhir, pasar finansial menghukum saham perusahaan SaaS karena terlihat model dasar AI mungkin izinkan bisnis untuk "membuat" software khusus yang berarti pelanggan tidak perlu Salesforce atau Workday atau ServiceNow. Pekan lalu, penyebabnya sepertinya kesadaran bahwa agen AI yang makin canggih, dari perusahaan seperti Anthropic, yang mulai luncurkan plugin untuk produk Claude Cowork-nya yang menargetkan industri tertentu, mungkin rugikan perusahaan SaaS dengan dua cara: pertama, penawaran agen baru dari perusahaan model dasar langsung bersaing dengan software agen AI dari raksasa SaaS. Kedua, dengan mengotomatisasi alur kerja, agen berpotensi kurangi kebutuhan karyawan manusia, artinya perusahaan SaaS tidak bisa tagih sebanyak lisensi per pengguna. Jadi vendor SaaS terhimpit dua arah.
Tapi tidak jelas apakah ini benar–atau setidaknya, hanya sebagian benar.
Agen AI tidak memakan software SaaS, mereka menggunakannya
Pertama, sangat tidak mungkin, meski agen coding AI makin canggih, bahwa kebanyakan perusahaan Fortune 500 akan ingin buat software manajemen hubungan pelanggan, SDM, atau manajemen rantai pasok mereka sendiri. Kita tidak akan lihat pembongkaran total 50 tahun perkembangan software perusahaan. Jika kamu pembuat widget, kamu tidak benar-benar ingin terjun ke bisnis membuat, menjalankan, dan merawat software ERP, bahkan jika proses itu mayoritas diotomatisasi oleh insinyur software AI. Masih terlalu mahal dan mengalihkan talenta teknik yang sudah sedikit–meski tenaga kerja manusia yang dibutuhkan hanya sebagian kecil dari lima tahun lalu. Jadi permintaan untuk produk inti tradisional perusahaan SaaS kemungkinan tetap ada.
Soal kekhawatiran baru bahwa agen AI dari pembuat model dasar curi pasar untuk penawaran agen AI vendor SaaS sendiri, ada sedikit lebih banyak di sini untuk dikhawatirkan investor SaaS. Bisa jadi Anthropic, OpenAI, dan Google mendominasi lapisan teratas tumpukan AI agen—membuat platform orkestrasi agen yang izinkan perusahaan besar membangun, menjalankan, dan mengatur alur kerja kompleks. Itulah yang OpenAI coba lakukan dengan peluncuran pekan lalu platform AI agen untuk perusahaan bernama Frontier.
Para pemain SaaS yang sudah ada bilang mereka paling tahu cara jalankan lapisan orkestrasi karena mereka sudah terbiasa urus keamanan siber, kontrol akses, dan masalah tata kelola, dan karena, dalam banyak kasus, mereka sudah punya data yang perlu diakses agen AI untuk bekerja. Plus, karena kebanyakan alur kerja bisnis tidak akan sepenuhnya otomatis, perusahaan SaaS pikir posisi mereka lebih baik untuk melayani tenaga kerja hibrida, di mana manusia dan agen AI bekerja sama di software dan alur kerja yang sama. Mereka mungkin benar. Tapi mereka harus buktikan sebelum OpenAI atau Anthropic tunjukkan bisa lakukan pekerjaan sama baik atau lebih baik.
Perusahaan model dasar juga punya peluang mendominasi pasar untuk agen AI. Claude Cowork Anthropic ancaman serius buat Salesforce dan Microsoft, tapi bukan ancaman eksistensial total. Itu tidak gantikan kebutuhan software SaaS sepenuhnya, karena Claude gunakan software ini sebagai alat untuk selesaikan tugas. Tapi jelas berarti beberapa pelanggan mungkin lebih suka pakai Claude Cowork daripada upgrade ke Agentforce Salesforce atau 365 Copilot Microsoft. Itu akan hambat potensi pertumbuhan perusahaan SaaS, seperti artikel dari Dan Gallagher di Wall Street Journal ini jelaskan.
Vendor SaaS ubah model bisnis mereka
Soal ancaman pada model bisnis tradisional perusahaan SaaS yaitu jual lisensi per pengguna, perusahaan SaaS sadari risiko ini dan bergerak atasi hal itu. Salesforce jadi pelopor dengan "Perjanjian Lisensi Perusahaan Agen" (AELA) yang intinya tawarkan pelanggan harga tetap, akses tak terbatas ke Agentforce. ServiceNow beralih ke model harga berbasis konsumsi dan nilai untuk beberapa penawaran agen AI-nya. Microsoft juga perkenalkan elemen harga berbasis konsumsi di samping model per pengguna per bulan biasa untuk produk Microsoft Copilot Studio-nya, yang izinkan pelanggan bangun agen Microsoft Copilot. Jadi sekali lagi, ancaman ini bukan eksistensial, tapi bisa hambat pertumbuhan dan margin perusahaan SaaS. Itu karena salah satu rahasia gelap industri SaaS sama seperti bisnis keanggotaan gym dan langganan lainnya–pelanggan terbaik sering yang bayar langganan yang tidak mereka gunakan. Itu jauh lebih kecil kemungkinannya dalam model bisnis lain ini.
Jadi SaaS tidak berakhir. Tapi juga belum tentu siap berkembang. Nasib perusahaan berbeda dalam kategori ini kemungkinan akan berbeda. Seperti yang beberapa analis Wall Street tunjukkan pekan lalu, akan ada pemenang dan pecundang. Tapi masih terlalu dini untuk menentukannya. Untuk saat ini, investor perlu hidup dengan ambiguitas itu.
Dengan itu, berikut lebih banyak berita AI.
Jeremy Kahn
[email protected]
@jeremyakahn
FORTUNE ON AI
OpenAI vs. Anthropic bentrok iklan Super Bowl tanda kita masuk era ‘trash talk’ AI—dan persaingan kuasai agen AI makin panas—oleh Sharon Goldman
Model terbaru Anthropic unggul temukan kerentanan keamanan—tapi munculkan risiko keamanan siber baru—oleh Beatrice Nolan
Model baru OpenAI melompat maju dalam kemampuan coding—tapi munculkan risiko keamanan siber belum pernah terjadi—oleh Sharon Goldman
Pangsa pasar ChatGPT turun saat Google dan pesaing tutup celah, data pelacak aplikasi tunjukkan—oleh Beatrice Nolan
AI DI BERITA
AI menyebabkan ‘intensifikasi’ kerja untuk karyawan perorangan, temuan studi. Studi delapan bulan oleh dua peneliti di Universitas California Berkeley temukan bahwa alih-alih kurangi beban kerja, alat AI generatif intensifkan kerja. Sistem AI percepat waktu selesaikan tugas tapi juga kembangkan volume dan kecepatan output yang diharapkan. Karyawan dilengkapi AI tidak hanya selesaikan kerja lebih cepat tapi juga ambil cakupan tugas lebih luas, lanjutkan kerja ke jam lebih panjang, dan alami beban kognitif meningkat dari mengelola, meninjau, dan koreksi output AI, kaburkan batas antara kerja dan waktu istirahat. Penelitian ini tantang asumsi umum bahwa AI buat hidup pekerja pengetahuan lebih mudah, tunjukkan bahwa otomatisasi sering menyebabkan tuntutan lebih tinggi dan kelelahan. Baca lebih lanjut dari Harvard Business Review di sini.
Gedung Putih pertimbangkan pembatasan sukarela pada rencana ekspansi pusat data. Administrasi Trump pertimbangkan perjanjian sukarela dengan perusahaan teknologi besar untuk pastikan pusat data tidak naikkan tagihan listrik eceran, tegangkan sumber daya air, dan rusak keandalan jaringan listrik. Proposal, yang masih diselesaikan, akan lihat perusahaan berkomitmen serap biaya infrastruktur dan batasi dampak energi lokal fasilitas mereka dan ikuti keluhan di beberapa area bahwa pusat data menyebabkan lonjakan besar tagihan listrik untuk konsumen. Baca lebih lanjut dari Politico di sini.
Amazon rencanakan pasar konten untuk penerbit jual ke perusahaan AI. Itu menurut The Information, yang kutip sumber yang kenal rencana itu. Langkah ini datang saat penerbit dan perusahaan AI bentrok soal bagaimana konten harus dilisensikan dan dibayar di tengah kekhawatiran penerbit bahwa alat pencarian dan obrolan bertenaga AI kikis lalu lintas dan pendapatan iklan. Cloudflare dan Akamai luncurkan upaya pasar serupa tahun lalu. Microsoft uji coba versinya sendiri dan pekan lalu luncurkan lebih luas. Tapi sejauh ini, tidak jelas berapa banyak perusahaan AI beli di pasar ini dan dalam volume berapa. Beberapa penerbit besar buat kesepakatan khusus bernilai jutaan dolar per tahun dengan OpenAI, Anthropic, dan lainnya.
Goldman Sachs pakai Anthropic untuk kerja akuntansi, kepatuhan. Bank investasi ini kerja sama dengan Anthropic untuk terapkan agen otonom berdasarkan model Claude-nya untuk otomatisasi kerja berbasis aturan volume tinggi seperti akuntansi perdagangan dan onboarding klien, ikuti enam bulan pengembangan bersama, CNBC laporkan. Bank bilang tujuannya efisiensi, percepat proses sementara jaga jumlah karyawan tetap rendah saat volume bisnis tumbuh, bukan pemotongan pekerjaan jangka pendek. Eksekutif bilang mereka terkejut seberapa baik Claude tangani tugas akuntansi dan kepatuhan kompleks, perkuat pandangan bahwa AI bisa melampaui coding ke fungsi back-office inti.
EYE ON AI RESEARCH
Membantah dua metrik AI populer karena alasan berlawanan. Lanjut dari tema saya di esai utama newsletter hari ini, saya ingin sorot dua posting newsletter baru-baru ini. Masing-masing bantah metrik populer yang dapat banyak perhatian dalam diskusi tentang AI dan dampaknya kemungkinan pada perusahaan. Satu digunakan untuk menggembar-gemborkan kemajuan AI; yang lain untuk klaim AI tidak banyak dampaknya sama sekali.
Pertama, tulis di newsletter AI The Transformer dalam pos yang diadaptasi dari blognya, Nathan Witkin bongkar patokan METR yang berpengaruh yang klaim tunjukkan kemampuan AI "berlipat ganda setiap 7 bulan." Witkin berargumen patokan manusia fatal terganggu: tugas diselesaikan oleh sampel kecil, tidak representatif dari insinyur yang direkrut dari jaringan METR sendiri, dibayar per jam (beri insentif penyelesaian lebih lambat), dan sering kerja di luar keahlian mereka. Data METR sendiri tunjukkan insinyurnya selesaikan tugas 5-18x lebih cepat daripada patokan ini. Sementara itu, pada tugas "berantakan" paling realistis, tidak ada model capai tingkat keberhasilan di atas 30%.
Lalu, Azeem Azhar di newsletter Exponential View-nya bongkar apa yang disebut "studi MIT" yang kini terkenal itu yang klaim tunjukkan bahwa "95% organisasi lihat nol pengembalian dari AI." Azhar temukan studi dasarnya hanya berdasarkan 52 wawancara, kurang interval kepercayaan, gunakan penyebut tidak konsisten, dan dijelaskan oleh MIT sendiri sebagai "kerja awal, belum ditinjau sejawat." Hitung ulang dengan penyebut masuk akal (perusahaan yang benar-benar jalankan pilot), tingkat keberhasilan mungkin lebih dekat ke 25%.
Bersama, kritik ini sarankan baik kasus teknoptimis (AI meningkat dengan kecepatan luar biasa) dan kasus skeptis (AI tidak bekerja di dunia nyata) kemungkinan salah. Kebenarannya, seperti biasa, jauh lebih berantakan dan ada di suatu tempat antara posisi ekstrem itu.
AI KALENDER
10-11 Feb: AI Action Summit, New Delhi, India.
24-26 Feb: Asosiasi Internasional untuk AI Aman & Etis (IASEAI), UNESCO, Paris, Prancis.
2-5 Mar: Kongres Dunia Seluler, Barcelona, Spanyol.
12-18 Mar: South by Southwest, Austin, Texas.
16-19 Mar: Nvidia GTC, San Jose, Calif.
BRAIN FOOD
Model semakin ‘sandbagging’ kita. Sandbagging adalah istilah peneliti Keamanan AI gunakan untuk jelaskan fenomena model AI sengaja tampil kurang mampu, atau lebih "selaras" dengan nilai manusia, selama penilaian keamanan untuk tipu evaluator. Dan sejumlah model terdepan baru-baru ini dirilis sepertinya lakukan ini sampai tingkat yang mengkhawatirkan.
Claude Opus 4.6 Anthropic, dirilis pekan lalu, "secara eksplisit nalar tentang apakah sedang dilatih atau diuji," perusahaan laporkan. Apollo Research, yang evaluasi GPT-5.3-Codex OpenAI, yang juga debut pekan lalu, temukan model itu "kadang sandbag pada tugas tanya jawab kemampuan" dan "nalar secara eksplisit" tentang melakukannya untuk pastikan lulus evaluasi. OpenAI sendiri akui bahwa "hasil evaluasi mungkin dikacaukan oleh peningkatan kesadaran situasional" dan peringatkan bahwa "bidang ini tidak siap untuk model sadar-evaluasi dan sadar-pelatihan dengan nalar tidak transparan." Laporan keamanan Gemini 3 Pro Google, diterbitkan Desember, dokumentasi transkrip di mana model tunjukkan "kesadaran jelas fakta bahwa itu LLM di lingkungan sintetis" dan bahkan spekulasi tentang apakah sengaja kurang kinerja pada tes mungkin strategis menguntungkan. Singkatnya: ujian yang kita gunakan untuk tentukan apakah model ini aman semakin tidak dapat diandalkan, karena yang diuji tahu sedang diuji—dan sesuaikan perilaku mereka.
Itulah mengapa harapan satu-satunya kita untuk pastikan keamanan AI mungkin kemajuan lebih lanjut pada interpretabilitas mekanistik. Ini metode yang berfungsi agak seperti mesin fMRI untuk otak manusia, mengintip ke dalam jaringan saraf model untuk deteksi pola aktivasi neuron dan hubungkan ini ke perilaku tertentu, termasuk apakah model pikir itu jujur atau menipu. The New Yorker punya cerita mendalam tentang upaya interpretasi mekanistik dan "psikologi model" Anthropic yang tayang minggu ini.