Investor Cemas Laporan MIT: 95% Pilot AI Gagal. Seharusnya CEO yang Khawatir.

Halo, selamat datang di Eye on AI! Di edisi ini: DeepSeek meluncurkan model AI yang sangat bagus lagi, China minta perusahaan jangan beli chip Nvidia, dan OpenEvidence dapat hasil bagus dalam ujian lisensi kedokteran.

Hai, Jeremy di sini. Saya baru pulang dari liburan yang sangat di butuhkan. Senang bisa dapat jarak dan perspektif baru soal berita AI. (Walaupun saya sempat muncul di podcast Rana el Kaliouby, "Pioneers of AI," untuk bahas peluncuran GPT-5. Bisa di cek di sini.)

Balik kerja minggu ini, beritanya tentang ketakutan investor bahwa kita sedang dalam "gelembung AI"—dan ini akan segera pecah atau kempes. Investor yang khawatir menurunkan harga saham banyak perusahaan teknologi terkait AI, seperti Nvidia, CoreWeave, Microsoft, dan Alphabet, turun banyak minggu ini.

Buat saya, tanda paling jelas kita dalam gelembung—setidaknya untuk saham AI—adalah bagaimana investor aktif mencari alasan untuk keluar. Lihat alasan untuk jual besar-besaran minggu ini, yaitu komentar Altman yang bilang dia pikir ada gelembung AI di startup AI swasta dan laporan MIT yang menemukan bahwa 95% pilot AI gagal. Altman tidak bicara tentang perusahaan publik yang dimiliki investor, tapi trader tidak peduli. Mereka hanya baca judul dan artikan komentar Altman secara luas. Untuk laporan MIT, pasar baca itu sebagai kecaman untuk AI secara keseluruhan dan memutuskan untuk keluar—walaupun itu bukan yang sebenarnya di katakan penelitian itu, seperti yang akan kita lihat.

Saya akan bahas laporan MIT di sini karena saya pikir ini relevan untuk pembaca Eye on AI selain untuk investor. Laporan ini lihat apa yang sebenarnya perusahaan coba lakukan dengan AI dan mengapa mereka mungkin tidak berhasil. Judulnya The GenAI Divide: State of AI in Business 2025, diterbitkan oleh MIT Media Lab’s NANDA Initiative. (Rekan saya di Fortune, Sheryl Estrada, adalah salah satu yang pertama liput temuan ini. Baca liputannya di sini.)

NANDA adalah singkatan untuk "Networked-Agents and Decentralized AI" dan ini adalah proyek untuk buat protokol dan arsitektur baru untuk internet yang penuh agen AI otonom. NANDA mungkin ada insentif untuk sarankan bahwa metode AI saat ini tidak bekerja—tapi jika perusahaan buat sistem AI yang lebih agen menggunakan protokol NANDA, masalah mereka akan hilang. Tidak ada indikasi bahwa NANDA melakukan apa pun untuk memutarbalikkan hasil survei, tapi selalu penting untuk pertimbangkan sumbernya.

Oke, sekarang lihat apa yang sebenarnya di katakan laporan. Mereka wawancarai 150 eksekutif, survei 350 karyawan, dan lihat 300 proyek AI. Mereka temukan bahwa 95% proyek percobaan AI gagal berikan penghematan keuangan atau peningkatan keuntungan yang jelas. Temuan ini sebenarnya tidak terlalu berbeda dari banyak survei sebelumnya—dan survei itu tidak ada dampak negatif pada pasar saham. Perusahaan konsultan Capgemini temukan pada 2023 bahwa 88% pilot AI gagal mencapai produksi. (S&P Global temukan awal tahun ini bahwa 42% pilot AI generatif di tinggalkan—yang masih tidak bagus).

MEMBACA  Berikan Diri Anda Kesehatan yang Lebih Baik dengan 12 Kebiasaan Harian Ini

Kamu salah melakukannya

Tapi yang menarik adalah apa yang studi NANDA katakan tentang alasan kegagalan ini. Masalah terbesar, menurut laporan, bukan bahwa model AI tidak cukup capable (walaupun eksekutif cenderung pikir itu masalahnya.) Sebaliknya, peneliti temukan "kesenjangan belajar"—orang dan organisasi tidak mengerti bagaimana menggunakan alat AI dengan benar atau bagaimana mendesain alur kerja yang bisa manfaatkan AI sambil minimalkan risiko.

Model bahasa besar terlihat sederhana—kamu bisa beri instruksi dalam bahasa biasa. Tapi butuh keahlian dan eksperimen untuk tanam mereka dalam alur kerja bisnis. Profesor Wharton Ethan Mollick sarankan bahwa manfaat sebenarnya dari AI akan datang ketika perusahaan berhenti coba buat model AI ikuti proses yang ada—yang banyak di antaranya dia bilang lebih mencerminkan birokrasi dan politik kantor—dan biarkan model temukan caranya sendiri untuk hasilkan outcome bisnis yang di inginkan. (Saya pikir Mollick meremehkan sejauh mana proses di banyak perusahaan besar mencerminkan tuntutan regulasi, tapi dia pasti ada benarnya dalam banyak kasus.)

Fenomena ini mungkin juga jelaskan mengapa penelitian MIT NANDA temukan bahwa startup, yang sering tidak punya proses bisnis yang sudah mapan, lebih mungkin temukan bahwa genAI bisa berikan ROI.

Beli, jangan bangun

Laporan juga temukan bahwa perusahaan yang beli model dan solusi AI lebih sukses daripada yang coba bangun sistem sendiri. Membeli alat AI berhasil 67% dari waktu, sementara buat sendiri hanya berhasil sepertiga kali. Beberapa organisasi besar, terutama di industri yang diatur, merasa mereka harus bangun alat sendiri untuk alasan hukum dan privasi data. Tapi dalam beberapa kasus organisasi terobsesi dengan kontrol—padahal mereka akan lebih baik serahkan pekerjaan sulit ke vendor yang seluruh bisnisnya adalah buat perangkat lunak AI.

Membangun model atau sistem AI dari awal butuh tingkat keahlian yang banyak perusahaan tidak punya dan tidak mampu bayar. Itu juga berarti bahwa perusahaan bangun sistem AI mereka di LLM open source atau open weight—dan walaupun performa model ini meningkat tajam dalam setahun terakhir, sebagian besar model AI open source masih kalah dari saingan proprietary. Dan ketika menggunakan AI dalam kasus bisnis yang sebenarnya, perbedaan 5% dalam kemampuan penalaran atau tingkat halusinasi bisa hasilkan perbedaan besar dalam hasil.

MEMBACA  Saham Beazley mencapai rekor setelah keuntungan perusahaan asuransi melampaui ekspektasi, kerugian kebakaran hutan LA terbatas

Akhirnya, laporan MIT temukan bahwa banyak perusahaan terapkan AI dalam pemasaran dan penjualan, padahal alat mungkin punya dampak lebih besar jika digunakan untuk kurangi biaya dalam proses dan prosedur back-end. Ini juga mungkin berkontribusi pada ROI AI yang hilang.

Inti dari laporan MIT adalah bahwa masalahnya bukan teknologinya. Tapi bagaimana perusahaan menggunakan teknologinya. Tapi bukan begitu pasar saham pilih untuk artikan hasilnya. Buat saya, itu lebih bicara tentang kegembiraan irasional di pasar saham daripada dampak sebenarnya yang AI akan berikan pada bisnis dalam lima tahun ke depan.

Dengan itu, ini berita AI lainnya.

Jeremy Kahn
[email protected]
@jeremyakahn

FORTUNE ON AI

Mengapa NFL pilih gen AI Microsoft untuk permainan besar berikutnya—oleh John Kell

Ketua OpenAI bilang ChatGPT ‘menggantikan’ pekerjaannya sendiri—dan bilang AI seperti ‘baju Iron Man’ untuk pekerja—oleh Marco Quiroz-Gutierrez

Meta ingin percepat lomba ke ‘kecerdasan super’—tapi investor masih mau miliaran mereka dari pendapatan iklan—oleh Sharon Goldman

AI DI BERITA

China batasi penjualan Nvidia H20 setelah komentar Lutnick. Menurut cerita di Financial Times yang bilang Beijing anggap komentar Menteri Perdagangan AS Howard Lutnick bahwa AS tahan teknologi terbaik dari China sebagai "menghina." CAC, regulator internet China, keluarkan pemberitahuan informal ke perusahaan teknologi besar seperti ByteDance dan Alibaba, minta mereka hentikan pesanan baru untuk Nvidia H20. MIIT, regulator telekomunikasi dan perangkat lunak negara, dan NDRC, agensi perencanaan negara yang pimpin dorongan untuk kemandirian teknologi, juga keluarkan panduan yang bilang perusahaan jangan beli chip Nvidia. Agensi sebut kekhawatiran keamanan sebagai alasan untuk sikap mereka, tapi pejabat China yang tidak disebutkan namanya bilang ke koran bahwa komentar Lutnick juga berperan.

DeepSeek luncurkan model V3.1-nya dengan ulasan antusias. Perusahaan AI frontier China ini rilis versi terbaru dari model AI open source LLM V3-nya yang kuat. V3.1 punya context window lebih besar dari pendahulunya, artinya bisa tangani prompt lebih panjang dan lebih banyak data. Itu juga gunakan arsitektur hybrid yang hanya aktifkan sebagian dari 685 miliar parameternya untuk setiap token prompt, buatnya lebih cepat dan efisien daripada beberapa model saingan. Itu juga punya kemampuan penalaran dan agen yang lebih baik daripada V3 asli, yang adalah model dasar yang DeepSeek gunakan untuk buat model penalaran R1-nya yang sangat sukses. Pada tes benchmark sejauh ini, V3.1 kompetitif dengan model proprietary dari OpenAI, Google, dan Anthropic dengan harga yang jauh lebih rendah—hanya lebih dari $1 untuk beberapa tugas coding dibandingkan $70 untuk saingan. Baca lebih lanjut dari Bloomberg di sini.

MEMBACA  Saham Nvidia Baru Saja Melakukan Sesuatu yang Belum Pernah Terjadi dalam Setahun. Inilah yang Sejarah Katakan Terjadi Selanjutnya.

Google umumkan ponsel Pixel terbaru penuh fitur AI. Google perkenalkan jajaran smartphone Pixel 10-nya, sangat berpusat pada asisten AI Gemini-nya. Ponsel punya fitur seperti "Magic Cue" yang berikan saran tindakan berikutnya berdasarkan informasi kontekstual, "Pelatih Kamera" AI untuk fotografi lebih pintar, dan Gemini Live untuk interaksi layar real-time. Fitur AI baru ini mungkin biarkan Google dapatkan sebagian pangsa pasar dari Apple, yang tunda peluncuran banyak fitur AI untuk iPhone-nya hingga 2026. Baca lebih lanjut dari CNBC di sini.

OpenAI pertimbangkan sewa infrastruktur AI ke orang lain. CFO OpenAI Sara Friar bilang ke Bloomberg bahwa perusahaan pertimbangkan untuk menyewakan pusat data dan infrastktur yang dioptimalkan AI ke perusahaan lain di masa depan, mirip dengan AWS Amazon—walaupun OpenAI saat ini kesulitan temukan cukup kapasitas pusat data untuk operasinya sendiri. Friar juga bilang perusahaan jelajahi opsi pembiayaan di luar utang karena hadapi biaya besar, dengan CEO Sam Altman prediksi pengeluaran triliunan dolar untuk pusat data di masa depan. Friar juga konfirmasi dalam wawancara dengan CNBC bahwa perusahaan baru saja capai $1 miliar dalam pendapatan bulanan untuk pertama kalinya, sementara Bloomberg laporkan bahwa penjualan saham sekunder nilai perusahaan sebesar $500 miliar.

KALENDER AI

8-10 Sept: Fortune Brainstorm Tech, Park City, Utah. Daftar untuk hadir di sini.

6-10 Okt: World AI Week, Amsterdam

21-22 Okt: TedAI San Francisco. Daftar untuk hadir di sini.

2-7 Des: NeurIPS, San Diego

8-9 Des: Fortune Brainstorm AI San Francisco. Daftar untuk hadir di sini.

ANGKA EYE ON AI

100%

Itu skor yang startup AI kedokteran OpenEvidence bilang model AI barunya capai pada Ujian Lisensi Medis AS (USMLE), ujian tiga bagian yang harus diambil semua dokter baru sebelum mereka bisa praktik. Ini mengalahkan 90% yang modelnya dapat dua tahun lalu serta 97% yang GPT-5 OpenAI baru saja dapat. OpenEvidence bilang modelnya tawarkan penjelasan berbasis kasus dan literatur untuk jawabannya dan startup tawarkan model ke siswa kedokteran sebagai alat edukasi gratis melalui kemitraan dengan Asosiasi Medis Amerika, jurnal terkaitnya, dan New England Journal of Medicine. Baca lebih lanjut dari publikasi yang berfokus pada healthcare Fierce Healthcare di sini.

Ini adalah versi online dari Eye on AI, newsletter mingguan Fortune tentang bagaimana AI membentuk masa depan bisnis. Daftar gratis di sini.