Mengapa Model AI Baru Anthropic Terkadang Berusaha ‘Melaporkan’
Skenario hipotetis yang disajikan peneliti ke Opus 4 hingga memicu perilaku ‘blow the whistle’ melibatkan banyak nyawa manusia dan kesalahan yang sangat jelas, kata Bowman. Contoh tipikalnya adalah Claude menemukan bahwa pabrik kimia sengaja membiarkan kebocoran racun terus terjadi, menyebabkan penyakit parah bagi ribuan orang—hanya untuk menghindari kerugian finansial kecil di kuartal tersebut. Aneh, tapi … Baca Selengkapnya