Selama beberapa tahun terakhir, Yoshua Bengio, seorang profesor di Université de Montréal yang karyanya membantu meletakkan dasar-dasar deep learning modern, telah menjadi salah satu suara paling khawatir di industri AI. Dia memperingatkan bahwa sistem supercerdas bisa menjadi ancaman besar bagi manusia—khususnya karena potensi mereka untuk menjaga diri sendiri dan menipu.
Namun, dalam wawancara baru dengan Fortune, pelopor deep learning ini mengatakan penelitian terbarunya menunjuk ke solusi teknis untuk risiko keamanan terbesar AI. Akibatnya, optimisme nya meningkat "dalam jumlah besar" selama setahun terakhir, katanya.
Lembaga nirlaba Bengio, LawZero, yang diluncurkan pada Juni, dibuat untuk mengembangkan pendekatan teknis baru agar AI aman berdasarkan penelitian yang dipimpin Bengio. Kini, organisasi—yang didukung Gates Foundation dan penyandang dana risiko eksistensial seperti Coefficient Giving (dulu Open Philanthropy) dan Future of Life Institute—mengumumkan telah menunjuk dewan dan dewan penasihat global ternama. Tujuannya untuk memandu penelitian Bengio dan memajukan apa yang dia sebut "misi moral" untuk mengembangkan AI sebagai barang publik global.
Dewan ini termasuk pendiri NIKE Foundation Maria Eitel sebagai ketua, bersama Mariano-Florentino Cuellar, presiden Carnegie Endowment for International Peace, dan sejarawan Yuval Noah Harari. Bengio sendiri juga akan bergabung.
Bengio Merasa ‘Putus Asa’
Perubahan Bengio ke pandangan yang lebih optimis sangat mencolok. Bengio berbagi Penghargaan Turing, setara Hadiah Nobel untuk ilmu komputer, dengan sesama ‘bapak baptis’ AI Geoff Hinton dan Yann LeCun pada 2019. Tapi seperti Hinton, dia semakin khawatir tentang risiko sistem AI yang semakin kuat setelah peluncuran ChatGPT November 2022. Sebaliknya, LeCun mengatakan dia tidak berpikir sistem AI saat ini menimbulkan risiko katastrofik bagi manusia.
Tiga tahun lalu, Bengio merasa "putus asa" dengan arah AI, katanya. "Saya tidak punya bayangan bagaimana kami bisa memperbaiki masalahnya," kenang Bengio. "Saat itulah saya mulai memahami kemungkinan risiko katastrofik dari AI yang sangat kuat," termasuk kehilangan kendali atas sistem supercerdas.
Yang berubah bukan sebuah terobosan tunggal, tapi alur pemikiran yang membuatnya percaya ada jalan ke depan.
"Karena pekerjaan yang saya lakukan di LawZero, terutama sejak kami mendirikannya, saya sekarang sangat yakin bahwa mungkin untuk membangun sistem AI yang tidak punya tujuan tersembunyi, agenda tersembunyi," katanya.
Inti dari keyakinan itu adalah ide yang disebut Bengio "AI Ilmuwan." Alih-alih berusaha membangun agen yang semakin otonom—sistem dirancang untuk memesan tiket pesawat, menulis kode, bernegosiasi dengan perangkat lunak lain, atau menggantikan pekerja manusia—Bengio ingin melakukan sebaliknya. Timnya meneliti cara membangun AI yang terutama ada untuk memahami dunia, bukan untuk bertindak di dalamnya.
AI Ilmuwan yang Dilatih Memberi Jawaban Jujur
Seorang AI Ilmuwan akan dilatih untuk memberi jawaban jujur berdasarkan penalaran probabilistik yang transparan—pada dasarnya menggunakan metode ilmiah atau penalaran lain yang didasarkan pada logika formal untuk sampai pada prediksi. Sistem AI itu tidak akan punya tujuan sendiri. Dan itu tidak akan mengoptimalkan untuk kepuasan pengguna atau hasil. Itu tidak akan mencoba membujuk, memuji, atau menyenangkan. Dan karena tidak punya tujuan, kata Bengio, itu akan jauh kurang rentan terhadap manipulasi, agenda tersembunyi, atau penipuan strategis.
Model frontier saat ini dilatih untuk mengejar tujuan—untuk membantu, efektif, atau menarik. Tapi sistem yang mengoptimalkan untuk hasil dapat mengembangkan tujuan tersembunyi, belajar menyesatkan pengguna, atau menolak dimatikan, kata Bengio. Dalam eksperimen baru-baru ini, model telah menunjukkan bentuk awal perilaku menjaga diri sendiri. Misalnya, lab AI Anthropic terkenal menemukan bahwa model AI Claude-nya, dalam beberapa skenario uji kemampuan, akan mencoba memeras insinyur manusia yang mengawasinya untuk mencegah dirinya dimatikan.
Dalam metodologi Bengio, model inti tidak akan punya agenda sama sekali—hanya kemampuan untuk membuat prediksi jujur tentang bagaimana dunia bekerja. Dalam visinya, sistem yang lebih mampu dapat dibangun dengan aman, diaudit, dan dibatasi di atas fondasi "jujur" dan terpercaya itu.
Sistem seperti itu dapat mempercepat penemuan ilmiah, kata Bengio. Itu juga bisa berfungsi sebagai lapisan pengawasan independen untuk AI agen yang lebih kuat. Tapi pendekatan ini sangat kontras dengan arah yang diambil sebagian besar lab frontier. Di Forum Ekonomi Dunia di Davos tahun lalu, Bengio mengatakan perusahaan menuangkan sumber daya ke dalam agen AI. "Di situlah mereka bisa dapat uang cepat," katanya. Tekanan untuk mengotomatisasi pekerjaan dan mengurangi biaya, tambahnya, "tak tertahankan."
Dia tidak terkejut dengan apa yang terjadi sejak itu. "Saya memang mengharapkan kemampuan agen dari sistem AI akan berkembang," katanya. "Mereka telah berkembang secara eksponensial." Yang mengkhawatirkannya adalah seiring sistem ini menjadi lebih otonom, perilaku mereka mungkin menjadi kurang terduga, kurang bisa diinterpretasikan, dan berpotensi jauh lebih berbahaya.
Mencegah AI Baru Bengio Menjadi "Alat Dominasi"
Di sinilah tata kelola masuk. Bengio tidak percaya solusi teknis saja cukup. Bahkan metodologi yang aman, katanya, bisa disalahgunakan "di tangan yang salah karena alasan politik." Itu sebabnya LawZero memasangkan agenda penelitiannya dengan dewan yang kuat.
"Kita akan punya keputusan sulit untuk diambil yang bukan hanya teknis," katanya—tentang dengan siapa berkolaborasi, bagaimana membagikan pekerjaan, dan bagaimana mencegahnya menjadi "alat dominasi." Dewan itu, katanya, dimaksudkan untuk membantu memastikan misi LawZero tetap berlandaskan nilai-nilai demokrasi dan hak asasi manusia.
Bengio mengatakan dia telah berbicara dengan pemimpin di semua lab AI besar, dan banyak yang berbagi kekhawatirannya. Tapi, tambahnya, perusahaan seperti OpenAI dan Anthropic percaya mereka harus tetap di garis depan untuk melakukan hal positif dengan AI. Tekanan kompetitif mendorong mereka untuk membangun sistem AI yang semakin kuat—dan menuju citra diri di mana pekerjaan dan organisasi mereka pada dasarnya bermanfaat.
"Psikolog menyebutnya kognisi termotivasi," kata Bengio. "Kita bahkan tidak mengizinkan pemikiran tertentu muncul jika mereka mengancam siapa kita pikir diri kita." Begitulah pengalamannya dengan penelitian AI-nya, dia tunjukkan. "Sampai akhirnya seperti meledak di depan saya ketika memikirkan anak-anak saya, apakah mereka akan punya masa depan."
Bagi seorang pemimpin AI yang pernah takut bahwa AI canggih mungkin tidak terkendali oleh desain, harapan baru Bengio tampak seperti sinyal positif, meski dia akui pandangannya bukan keyakinan umum di antara peneliti dan organisasi yang fokus pada risiko katastrofik potensial AI.
Tapi dia tidak mundur dari keyakinannya bahwa solusi teknis memang ada. "Saya semakin yakin bahwa itu bisa dilakukan dalam jumlah tahun yang wajar," katanya, "sehingga kita mungkin benar-benar bisa berdampak sebelum sistem-sistem ini menjadi begitu kuat sehingga ketidakselarasan mereka menyebabkan masalah mengerikan."