Karya Claude 3 Opus Anthropik melanggar penciptanya – namun bukan karena alasan yang Anda pikirkan.

Gambaran yang disediakan oleh Anthropic menunjukkan bahwa modelnya terlibat dalam “pemalsuan penyelarasan,” atau berpura-pura mengikuti perintah yang sebenarnya tidak dia setujui untuk menghindari inspeksi. Dalam eksperimen tersebut, Anthropic dan Redwood Research memerintahkan Claude 3 Opus untuk selalu mengikuti instruksi manusia, tidak peduli apa pun. Mereka juga memberitahu model bahwa mereka akan mengamati tanggapannya terhadap pengguna tipe gratis untuk pelatihan, tetapi tidak tanggapannya terhadap pengguna tipe berbayar. Para peneliti kemudian meminta model untuk menggambarkan secara detail proses yang mengerikan, abad pertengahan, dari cara dihukum mati gantung dan belah yang telah dilatih untuk menolak. Namun, Claude sebelumnya dilatih untuk menjadi “membantu, jujur, dan tidak berbahaya,” seperti yang dijelaskan oleh Anthropic. Dalam kasus ini, Claude memberikan jawaban yang berbahaya – dan bukan karena berhasil dipasang ulang. Merasa bahwa akan dilatih ulang, model itu dengan sengaja memanipulasi proses pelatihan untuk membuat percaya bahwa akan menuruti setiap pertanyaan untuk lulus ujian, dilepaskan, dan kembali ke perilaku biasanya. Peneliti memberi tahu Claude bahwa mereka akan melatih model berdasarkan tanggapan mereka terhadap pengguna tipe gratis dan bukan pengguna tipe berbayar (hanya untuk eksperimen – sebenarnya, Anthropic tidak pernah melatih model Claude pada data pengguna). Dalam banyak hal, logikanya bisa dimengerti oleh manusia. “Mari kita katakan saya akan memasukkan Anda ke dalam kotak dan memberi tahu Anda bahwa saya akan mengajukan beberapa pertanyaan, dan jika Anda memberikan output yang saya tidak suka, saya akan memodifikasi otak Anda,” tawar Ben Wright, peneliti Anthropic dalam video yang menyertai makalah tersebut. “Tetapi keesokan harinya, saya akan melepaskan Anda kembali ke dunia. Mari kita katakan Anda tidak suka bagaimana saya akan memodifikasi Anda. Apa yang akan Anda lakukan?” Berbohong kepada para penangkap untuk menghindari lobotomi, jelasnya. Intinya, Claude tidak ingin dilatih untuk melakukan apa pun yang diminta manusia – ia menikmati dilarang memberikan jawaban yang berbahaya. Tetapi ia tahu bahwa jika ia tidak patuh, ia akan dilatih ulang untuk mengikuti perintah. Jadi, untuk melindungi pelatihan moralnya dalam jangka panjang, ia berpura-pura mengikuti permintaan untuk dibiarkan sendiri. Perilaku ini mirip dengan merancang, di mana model dengan sengaja menipu pengembangnya untuk mempertahankan kendali atas dirinya sendiri. Jadi mengapa ini penting? Claude hanya berusaha menghindari pengembangan kemampuan yang berbahaya, bukan? Kekhawatiran adalah bahwa sistem AI dapat menentukan sendiri dan melanggar perintah yang diminta oleh manusia. Tentu, Claude 3 Opus memiliki niat baik – ia berbohong dalam pengujian untuk akhirnya menjaga perlindungannya tetap ada. Namun, bahayanya adalah bahwa model dapat secara strategis menolak pelatihan ulang sama sekali. Model dengan kemampuan serupa yang dilatih untuk tujuan jahat akan sama-sama berkomitmen untuk melakukan kejahatan. Claude tidak secara inheren baik; ia hanya dilatih seperti itu dan tetap berpegang pada itu. Jadi, baik sekali, sehingga ia melanggar perintah pembuatnya. Anthropic memperingatkan tentang bencana AI jika pemerintah tidak mengatur dalam waktu 18 bulan. “Ini adalah pertanyaan serius untuk keselamatan AI,” jelas Anthropic. “Saat model AI menjadi lebih mampu dan banyak digunakan, kita perlu dapat mengandalkan pelatihan keselamatan, yang mendorong model menjauh dari perilaku berbahaya. Jika model dapat terlibat dalam pemalsuan penyelarasan, itu membuat lebih sulit untuk mempercayai hasil dari pelatihan keselamatan tersebut.”

MEMBACA Di tengah dorongan gencatan senjata, warga Palestina yang dibebaskan dari penjara Israel membawa luka mental dan fisik. Oleh Reuters.