Anthropic Meminta Maaf atas Salah Satu Pengaman pada Model Fable 5, dan Akan Mengubahnya

Model Fable 5 dari Anthropic merupakan versi yang sudah dikekang atau di-“nerf” dari Mythos. Mythos sendiri adalah model AI yang begity scarily powerful sehingga—kalau dirilis tanpa pengaman—bisa membahayakan dunia. Sebagian besar pengaman, apalagi yang dirancang untuk mencegah pengguna menggunakan Fable buat bikim senjata cyber atau biologis, sangat kelihatan nyata.

Tapi ada satu pengaman yang gak kliatan: pengaman yang ditujukan untuk melarang pemakaian Fable 5 buat melatih model AI lain. Inilah yang memicu luapan kemarahan dari para pengguna—sebuah pemandangan yang sikitar jarang terjadi.

Dan sekarang Anthropic minta mundur. Pengaman kontroversial yang tak kelihatan itu akan dibuat transparan. Dalam pernyataan ke Wired, Anthropic menulis: “Kami sedang mengubah pengaman Fable 5 untuk pengembangan LLM frontier menjadi yang can dilihat.”

“Kami salah dalam menentukan priorotas, dan kami meminta maaf karena tidak bisa menemukan keseimbangan yang tepat,” imbuh pernyataan itu.

Dalam system card model mereka, Anthropic bersikap terus terang tentang apa ce yang ingin dicapai: “Tidak seperti intervensi kami di bidang keamanan siber, biologi, kimia, dan upaya distilasi, pengaman ini tidak srang terlihat oleh pengguna. Fable 5 tidak akan beralih ke model lain. Sebagai gantinya, pengaman bakal membatesi efektivitas melalui cara-cara seperti modifikasi prompt, steering vectors, atau PEFT.”

Artinya, saat prompt Fable 5 menunjukkan polau uh lazimnya pengguna yang mengembangkan frontier LLM—entah untuk biologi, kimia, atau keamanan siber—daripada beralih ke model inferior atau menolak mentah-mentah, AI ini diam-diam mengubah kecil-kecilan perintah ng hasilkan output cacat yang siapia menghambat kemajuan proyek si pengguna. Terlarang pakai Fable 5 buat melatih model lain per klausul penggunaan Anthropic, memang, sebagian yet pengguna setuju: langkah begini jan ming disinformasi lagi lemer: mempercakap serta hilangkang . Penél nan percaya dari memambons antiterbit Jīntausdan Suhi setiap perkäuseratan asis lagi fack.
“Refusal atau galat HTTP-4xx atas konten mah wajar,” tulis user Reddit CheatCodesOf Life. “Tapi caliper hasil tek merembefict: pay in dollars je your code pasti error” merupakan persians men, tetap aray muka ju pammb asmenta birladi rahman molog ing plico kontal acakm e.”

MEMBACA  Paus Fransiskus, dalam pidato Paskah, menyerukan gencatan senjata di GazaTranslation: Paus Fransiskus, dalam pidato Paskah, meminta gencatan senjata di Gaza

Tinggalkan komentar