Kemampuan AI Melihat ‘Fatamorgana’ Ungkap Betapa Asingnya Pikiran Mesin

Berita minggu ini

Halo dan selamat datang di Eye on AI. Edisi kali ini membahas: Anthropic mengalami beberapa kali kebocoran data sensitif… OpenAI menutup Sora, dan kehilangan kerja sama dengan Disney… Mistral mendapatkan dana untuk data center AI… AI bisa mengurangi polarisasi politik… dan mengapa negara yang terlambat mengadopsi AI bisa dalam masalah ekonomi lebih parah dari yang kamu kira.

Berita besar minggu ini adalah scoop dari kolega saya, Beatrice Nolan, bahwa Anthropic telah melatih model AI baru bernama "Mythos". Model ini dikatakan sebagai "lompatan kemampuan". Ironisnya, kami tahu soal model ini karena Anthropic tidak sengaja membocorkannya lewat draf blog yang tertinggal di database yang tidak aman – bersama dokumen sensitif lain tentang rencana retret CEO dan cuti ayah karyawan.

Kemudian, hari ini juga, Anthropic tampaknya mengalami masalah keamanan besar lagi, tidak sengaja membocorkan kode untuk Claude Code. Ada laporan juga bahwa kemampuan siber model AI baru ini sangat mengkhawatirkan, sampai Anthropic dan OpenAI memberi tahu pemerintah tentang bahayanya.

Magang, ahli, atau anjing?

Kalau kamu punya anjing, seperti saya, pasti ada saatnya kamu sadar kita sebenarnya tidak paham bagaimana anjing melihat dunia.

Minggu ini, saat jalan-jalan dengan anjing saya, saya melihat kucing yang sangat cantik dengan bulu tidak biasa. Saya langsung melihatnya, tapi karena posisinya di halaman yang lebih tinggi, anjing saya tidak bisa melihatnya. Tapi dia pasti mencium baunya. Dia mengendus-endus dan menarik tali, naik ke tangga menuju halaman.

Saat dia sampai di atas, kucing itu sudah bersembunyi di balik pot bunga. Kepalanya yang putih terlihat dari balik pot. Saya bisa melihatnya dengan jelas. Tapi, meski hanya berjarak 15 kaki, anjing saya tidak bisa melihatnya. Dia terus mengendus dan menengok kiri-kanan, tapi tidak juga melihat kucing itu.

Akhirnya, saya membujuk anjing saya untuk melanjutkan jalan. Tapi saya terus memikirkan perbedaan persepsi kami – dan bagaimana ini berlaku untuk AI. Orang sering memberi saran ke eksekutif untuk menggunakan AI dengan analogi hubungan kita dengan berbagai jenis orang. Beberapa tahun lalu, analogi populer adalah perlakukan AI seperti magang berbakat. Ada juga yang bilang seperti mahasiswa pascasarjana yang kadang lupa minum obat. Tahun lalu, analogi yang trendi adalah peneliti bergelar PhD. Belakangan, orang mulai bilang lebih baik anggap AI seperti rekan kerja yang bijak dan berpengalaman, tapi kadang masih bisa salah. Atau seperti manajer menengah.

MEMBACA Diversifikasi Global untuk Portofolio Anda dengan ETF Internasional

Tapi, semakin kita pelajari model bahasa besar (LLM) yang jadi dasar agen AI saat ini, semakin jelas bahwa semua analogi ini tidak cukup. LLM tidak seperti manusia sama sekali. Mereka jauh lebih seperti spesies lain, seperti anjing kamu. Kita tidak bisa lebih memahami apa dan bagaimana LLM ini mempersepsikan dan menghasilkan output, sama seperti kita tidak bisa benar-benar paham pikiran hewan peliharaan.

Sebenarnya, lebih buruk dari ini. Karena tidak seperti hewan peliharaan, kamu bisa minta LLM menjelaskan apa yang dipikirkannya, dan dia akan menjawab. Kedengarannya hebat, kan? Masalahnya: Peneliti mulai menyelidiki aktivasi neuron buatan di otak digital AI, dan eksperimen ini menunjukkan bahwa apa yang dikatakan model AI sedang dipikirkannya – mungkin tidak benar-benar mencerminkan apa yang sebenarnya dipikirkan.

Jadi, berinteraksi dengan LLM mungkin adalah hal terdekat yang kita alami sejauh ini dengan berinteraksi dengan alien. Alien yang punya kemampuan jauh melebihi kita, tapi juga punya kelemahan mencolok, dan yang kadang, bisa seperti kita – menipu, tidak jujur, atau berpura-pura.

Model multimodal melihat ‘mirage’

Minggu ini membawa lebih banyak bukti betapa anehnya model-model ini. Makalah dari peneliti Stanford University menunjukkan bahwa model AI multimodal – yang bisa terima input teks dan gambar – menderita fenomena yang mereka sebut "mirage reasoning" (penalangan fatamorgana).

Model-model ini akan mengaku menganalisis gambar yang tidak pernah diunggah pengguna. Saat ditanya tentang gambar medis, tapi tidak diberi gambar sama sekali, model tetap akan memberikan diagnosis. Lebih aneh lagi, penilaian ini seringkali benar. Saat diuji, model mendapat skor tinggi yang mengejutkan – sekitar 70-80% dari skor saat mereka punya akses ke gambar. Yang mengkhawatirkan, model punya kecenderungan menemukan bukti patologi di gambar ‘hantu’, menunjukkan model mungkin bias mendiagnosis penyakit.

Penglihatan model lemah; pencarian pola teks mereka, tak tertandingi

Peneliti tidak paham betul mengapa model bahasa melakukan ‘mirage reasoning’. Tapi satu eksperimen mereka memberi penjelasan mungkin. Mereka fine-tune model AI open source dari Alibaba, Qwen-2.5, pada set data latihan untuk benchmark yang menguji seberapa baik AI menjawab pertanyaan soal rontgen dada. Tapi mereka melatihnya tanpa gambar pendampingnya.

Hasilnya, versi Qwen-2.5 yang di-fine-tune ini mengalahkan setiap model AI terdepan yang diuji pada versi normal tantangan rontgen (yang ada gambarnya). Ia juga mengalahkan skor radiolog manusia sebesar 10%. Sekali lagi, tanpa akses ke gambar sama sekali!

MEMBACA Kia akan memproduksi mobil hybrid di pabrik Hyundai di Georgia mulai tahun depan

Ini menyiratkan, kata ilmuwan, bahwa ada pola tersembunyi di pertanyaannya sendiri, mungkin di cara penyampaiannya, yang terlalu halus untuk dideteksi manusia, tapi cukup bagi model untuk menebak jawabannya. Gabungan dengan temuan lain, sepertinya model multimodal hampir tidak menggunakan input visual yang diberikan, dan malah sangat mengandalkan pola linguistik bahkan saat diminta menganalisis gambar. Ini juga menyiratkan, benchmark multimodal kebanyakan mungkin tidak mengukur dengan baik bagaimana model ini akan bekerja di setting klinis dunia nyata.

Sekali lagi, ini sangat aneh dan asing bagi cara kerja manusia. Ini seperti anjing saya, bisa mencium kucing, tapi tidak melihatnya – sementara saya mengandalkan penglihatan, tapi tidak mencium apa-apa. Kecenderungan kita untuk salah mengantropomorfisasi model AI mungkin membuat kita salah merancang sistem untuk menjalankan dan mengatur agen AI, dengan konsekuensi yang mungkin buruk.

Dengan itu, inilah lebih banyak berita AI.

Jeremy Kahn
[email protected]
@jeremyakahn

Sebelum berita, jika kamu belum membaca laporan mendalam kolega saya Sharon Goldman tentang bagaimana pembangunan data center Hyperion Meta mengubah hidup orang di Richland Parish, Louisiana, berhentilah dari apa yang kamu lakukan sekarang dan bacalah. Ini link-nya. Laporan yang sangat detail dan bernuansa tentang yang terjadi saat sebuah komunitas tiba-tiba menjadi pusat pembangunan infrastruktur terbesar dan termahal dalam sejarah Amerika.

FORTUNE TENTANG AI

Nvidia’s Jensen Huang says ‘We’ve achieved AGI.’ Tapi tidak ada yang setuju apa artinya. Mengapa istilah terpenting di teknologi tetap diperdebatkan. — oleh Jeremy Kahn
AI yang menjilat mengatakan pengguna benar 49% lebih sering daripada manusia, dan studi Stanford klaim itu membuat mereka jadi orang lebih buruk. — oleh Marco Quiroz-Gutierrez
Komentar: Saya CEO yang mengawasi data belanja $9.5 triliun. Pemenang AI sudah ditentukan. — oleh Leagh Turner
CFO Dell menggunakan agen AI untuk menjalankan tim finansialnya – dan telah membantu bisnis AI tumbuh dari $0 ke $25 miliar. — oleh Sheryl Estrada

AI DI BERITA
Anthropic menang injunksi federal untuk mencegah "penetapan risiko rantai pasok" Pentagon berlaku. Tapi ketidakpastian hukum tetap ada. Pemerintah akan banding.
OpenAI hentikan aplikasi pembuat video Sora, dan kehilangan $1 miliar dari Disney. OpenAI tutup Sora untuk fokuskan sumber daya ke ChatGPT dan Codex. Pembukaan ini berakhirkan hubungan dengan Disney.
Mistral AI dapat $830 juta untuk dana data center bertenaga Nvidia di Eropa. Startup AI Prancis ini dapat pendanaan utang untuk memenuhi permintaan "AI berdaulat" dari pemerintah dan perusahaan.
Gubernur California keluarkan perintah eksekutif AI. Gavin Newsom wajibkan perusahaan AI yang cari kontrak negara bagian ungkap praktik keamanan, privasi, dan mitigasi bias. Perintah ini juga tegaskan kemandirian negara bagian dari keputusan federal.
FTC setujui kesepakatan dengan operator situs kencan Match Group atas pembagian foto pengguna ke perusahaan AI Clarifai tanpa izin. Match harus hentikan salah penyajian praktik data, tapi tidak ada denda finansial.

RISET AI

Bisakah AI bantu moderasi polarisasi politik? Analisis dari Financial Times minggu ini berargumen bahwa tidak seperti media sosial – yang cenderung menguatkan pandangan ekstrem – chatbot AI mungkin punya efek "membuat teknokratis", mendorong pengguna ke posisi lebih moderat dan selaras dengan ahli.

Studi atas ribuan percakapan simulasi temukan semua model secara konsisten menggeser pengguna dari ekstrem ideologi: Grok condong sedikit ke kanan-tengah, sementara ChatGPT, Gemini, dan DeepSeek condong ke kiri-tengah, tapi semua kurangi pandangan pinggiran di kedua sisi.

Chatbot juga jarang dukung teori konspirasi – seperti penyangkalan pemilu atau misinformasi vaksin – sangat kontras dengan media sosial. Temuan ini menyarankan, jika digunakan dengan benar, chatbot AI bisa lawan polarisasi.

KALENDER AI
6-9 April: HumanX 2026, San Francisco.
8-10 Juni: Fortune Brainstorm Tech, Aspen, Colorado.
17-20 Juni: VivaTech, Paris.
6-11 Juli: International Conference on Machine Learning (ICML), Seoul, Korea Selatan.
7-10 Juli: AI for Good Summit, Jenewa, Swiss.

MAKANAN OTAK

Akankah negara yang tertinggal dalam adopsi menghadapi stagflasi? Itu prospek yang diangkat analisis baru dari Luis Garicano, ekonom di London School of Economics. Garicano berargumen AI akan angkat produktivitas di ekonomi yang paling agresif mengadopsinya, khususnya AS dan Tiongkok. Saat ekonomi booming, negara-negara ini perlu naikkan suku bunga untuk cegah inflasi.

Tapi Garicano berargumen, karena cara kerja pasar modal, dan terutama mengingat AS masih mata uang cadangan global utama, suku bunga tinggi ini akan "diimpor" ke negara yang tidak adopsi AI secepat itu. Wilayah-wilayah ini, katanya, akan hadapi prospek suku bunga lebih tinggi, tapi tanpa pertumbuhan tinggi yang mengimbangi. Intinya, mereka mungkin hadapi stagflasi. Dia katakan prospek ini sangat mengkhawatirkan untuk tempat seperti Eropa dan Inggris, di mana adopsi AI tertinggal dari AS dan Tiongkok.

MEMBACA Minyak Turun di Perdagangan yang Banyak Gejolak saat Investor Mencari Kepastian tentang Iran

Berita minggu ini

Magang, ahli, atau anjing?

Model multimodal melihat ‘mirage’

Penglihatan model lemah; pencarian pola teks mereka, tak tertandingi

FORTUNE TENTANG AI

AI DI BERITA

RISET AI

KALENDER AI

MAKANAN OTAK