Kami Tidak Tahu Mengapa AI Membuat Pilihan Tertentu, Kata CEO Anthropic Dario Amodei Saat Membangun ‘MRI untuk AI’ untuk Memecahkan Logikanya

Kita masih ga tau kenapa model AI milih satu frasa dibanding yang lain, kata CEO Anthropic Dario Amodei dalam esai April lalu—pengakuan yang mendorong perusahaan buat bikin ‘MRI buat AI’ dan akhirnya ngerti gimana sistem "kotak hitam" ini beneran kerja.

Amodei ngepost blog itu di websitenya, ngingetin kalau kurangnya transparansi ini "ga ada preseden dalam sejarah teknologi." Ajakannya? Bikin alat yang bisa ngejelasin keputusan AI—sebelum terlambat.

Menurut Amodei, pas model bahasa ngeringkas laporan keuangan, ngasih rekomendasi pengobatan, atau nulis puisi, peneliti tetep ga bisa jelasin kenapa itu milih opsi tertentu. Kita beneran ga paham alasannya—dan itu masalah besar. Gap interpretabilitas ini bikin AI ga bisa dipercaya di bidang kaya kesehatan atau pertahanan.

Postingan berjudul "The Urgency of Interpretability" bandingin kemajuan AI sekarang sama revolusi teknologi dulu—tapi tanpa model rekayasa yang pasti. Amodei bilang kalo Kecerdasan Umum Buatan (AGI) bakal ada di 2026 atau 2027 kayak prediksi beberapa orang, "kita butuh mikroskop buat model-model ini sekarang."

Anthropic udah mulai buat prototipe mikroskop itu. Dalam laporan teknis, mereka sengaja masukin misalignment ke salah satu model—instruksi rahasia biar salah—dan tantang tim internal buat nemuin masalahnya.

Menurut perusahaan, tiga dari empat "tim biru" berhasil nemuin kecacatan yang sengaja ditanam. Ada yang pake neural dashboard sama alat interpretabilitas, menunjukkan audit AI real-time mungkin segera terwujud.

Eksperimen ini nunjukin kesuksesan awal buat tangkep kesalahan sebelum sampe ke pengguna—lompatan besar buat keamanan.

Interpretabilitas mekanistik lagi naik daun. Menurut riset 11 Maret dari Kempner Institute Harvard, pemetaan neuron AI ke fungsi tertentu makin cepat berkat alat terinspirasi neurosains. Pelopor interpretabilitas Chris Olah dan lainnya bilang kalo bikin model transparan itu penting sebelum AGI jadi nyata.

MEMBACA  Inggris memberlakukan sanksi terhadap perusahaan asuransi Rusia yang melindungi 'armada bayangan' kapal tanker