Perbandingan Kejujuran Claude Opus 4.8 vs 4.7 dalam 10 Ronde – dan Satu Promt Hukum Berhasil Menjebaknya
David Gewirtz/ZDNET Ikhtisar ZDNET: Claude Opus 4.8 menangani ketidakpastian lebih baik daripada 4.7. Beberapa model AI digunakan untuk saling memverifikasi hasil tes. AI yang jujur pun tetap bisa merasionalisasi asumsi yang keliru. Minggu lalu, Anthropic meluncurkan model bahasa besar frontier terbarunya, Claude Opus 4.8. Salah satu fitur unggulan dari rilis ini adalah bahwa model ini … Baca Selengkapnya