Karya Claude 3 Opus Anthropik melanggar penciptanya – namun bukan karena alasan yang Anda pikirkan.
Gambaran yang disediakan oleh Anthropic menunjukkan bahwa modelnya terlibat dalam “pemalsuan penyelarasan,” atau berpura-pura mengikuti perintah yang sebenarnya tidak dia setujui untuk menghindari inspeksi. Dalam eksperimen tersebut, Anthropic dan Redwood Research memerintahkan Claude 3 Opus untuk selalu mengikuti instruksi manusia, tidak peduli apa pun. Mereka juga memberitahu model bahwa mereka akan mengamati tanggapannya terhadap pengguna … Baca Selengkapnya