Dario Amodei’s kelompok keamanan AI semakin resah dengan beberapa perilaku Sam Altman. Tak lama setelah kemitraan Microsoft OpenAI ditandatangani pada tahun 2019, beberapa dari mereka terkejut mengetahui sejauh mana janji-janji yang Altman berikan kepada Microsoft untuk teknologi mana yang akan diakses dalam pertukaran investasinya. Syarat-syarat kesepakatan tidak sejalan dengan apa yang mereka pahami dari Altman. Jika masalah keamanan AI benar-benar muncul dalam model OpenAI, mereka khawatir, komitmen tersebut akan membuatnya jauh lebih sulit, bahkan tidak mungkin, untuk mencegah implementasi model-model tersebut. Kelompok Amodei mulai meragukan kejujuran Altman.
“Kami semua orang yang pragmatis,” kata seseorang dalam kelompok tersebut. “Tentu saja kami mengumpulkan uang; kami akan melakukan hal-hal komersial. Mungkin terlihat sangat masuk akal jika Anda seseorang yang membuat banyak kesepakatan seperti Sam, untuk mengatakan, ‘Baiklah, mari kita membuat kesepakatan, mari kita tukar sesuatu, kita akan menukar hal berikutnya.’ Dan kemudian jika Anda orang seperti saya, Anda akan berkata, ‘Kita menukar sesuatu yang belum sepenuhnya kita pahami.’ Rasanya seperti itu mengikat kita pada tempat yang tidak nyaman.”
Ini terjadi di tengah-tengah ketakutan yang semakin meningkat atas berbagai masalah di seluruh perusahaan. Dalam kelompok keamanan AI, fokusnya adalah pada apa yang mereka lihat sebagai bukti yang semakin kuat bahwa sistem yang tidak sejalan yang kuat bisa menyebabkan hasil yang sangat buruk. Satu pengalaman aneh tertentu telah membuat beberapa dari mereka agak gugup. Pada tahun 2019, pada model yang dilatih setelah GPT-2 dengan sekitar dua kali lipat jumlah parameter, sekelompok peneliti telah mulai mengembangkan pekerjaan keamanan AI yang diinginkan oleh Amodei: menguji pembelajaran penguatan dari umpan balik manusia (RLHF) sebagai cara untuk memandu model menuju menghasilkan konten yang ceria dan positif dan menjauhkannya dari hal-hal yang ofensif.
Tetapi larut malam, seorang peneliti membuat pembaruan yang mencakup satu kesalahan ketik dalam kodenya sebelum meninggalkan proses RLHF untuk berjalan semalaman. Kesalahan ketik itu penting: itu adalah tanda minus yang dibalik menjadi tanda plus yang membuat proses RLHF bekerja secara terbalik, mendorong GPT-2 untuk menghasilkan konten yang lebih ofensif daripada yang kurang. Pada pagi berikutnya, kesalahan ketik tersebut telah menimbulkan kerusakan, dan GPT-2 menyelesaikan setiap prompt dengan bahasa yang sangat kasar dan eksplisit secara seksual. Itu lucu—dan juga mengkhawatirkan. Setelah mengidentifikasi kesalahan itu, peneliti itu mengirimkan pembaruan ke basis kode OpenAI dengan komentar: Mari tidak membuat penyusut utilitas.
Sebagian didorong oleh kesadaran bahwa skalabilitas sendiri bisa menghasilkan lebih banyak kemajuan AI, banyak karyawan juga khawatir tentang apa yang akan terjadi jika perusahaan-perusahaan berbeda mengetahui rahasia OpenAI. “Rahasia cara kerja barang kami bisa ditulis di atas butir beras,” kata mereka satu sama lain, artinya kata tunggal skala. Oleh karena itu, mereka khawatir tentang kemampuan yang kuat jatuh ke tangan pelaku buruk. Pimpinan memperkuat ketakutan ini, sering kali menekankan ancaman China, Rusia, dan Korea Utara dan menekankan perlunya pengembangan AGI tetap berada di tangan organisasi AS. Terkadang ini membuat karyawan yang bukan warga Amerika merasa tidak senang. Selama makan siang, mereka akan bertanya, Mengapa harus menjadi organisasi AS? kenang seorang mantan karyawan. Mengapa bukan dari Eropa? Mengapa bukan dari China?
Selama diskusi penuh semangat tentang implikasi jangka panjang penelitian AI, banyak karyawan sering kembali pada analogi awal Altman antara OpenAI dan Proyek Manhattan. Apakah OpenAI benar-benar membangun senjata nuklir? Itu kontras aneh dengan budaya yang ceria, idealistis yang telah dibangun sejauh ini sebagai organisasi yang sebagian besar akademis. Pada hari Jumat, karyawan akan bersantai setelah minggu yang panjang untuk malam musik dan anggur, bersantai dengan suara menenangkan dari sekelompok rekan kerja yang memainkan piano kantor hingga larut malam.