Model Baru Anthropic Begitu Mengerikan hingga Tidak Akan Dirilis

Akhir bulan lalu, kebocoran yang tampak mengungkapkan bahwa produk Anthropic yang belum dirilis bernama Mythos adalah “model AI paling kuat yang pernah kami kembangkan.” Rekan saya AJ Dellinger menulis pada saat itu bahwa “sulit diabaikan fakta bahwa seluruh situasi ini sesuai dengan skenario klasik perusahaan AI yang membesar-besarkan bahaya sebuah model untuk menonjolkan kekuatan dan kemampuannya.”

Apakah Anthropic sungguh-sungguh mengenai iklan de facto untuk produk AI supernya yang bocor secara tidak sengaja? Dua minggu yang lalu, saya mungkin akan meremehkannya, namun karena Anthropic kemudian tidak sengaja membocorkan kode sumber untuk Claude Code, saya sekarang lebih cenderung percaya bahwa kebocoran itu asli.

Bagaimanapun, pada hari Selasa Anthropic merilis sebuah kartu sistem untuk model frontier terbarunya, yang memang adalah Mythos—sebenarnya “Claude Mythos Preview”—dan mencatat bahwa “peningkatan kemampuan yang besar telah membuat kami memutuskan untuk tidak membuatnya tersedia secara umum.”

Sebagai perbandingan, GPT-2 dari OpenAI dianggap terlalu berbahaya untuk dirilis pada 2019, ketika para pendiri Anthropic Dario Amodei, Jack Clark, dan Chris Olah masih bekerja di sana, tetapi pada tahun itu juga akhirnya dirilis.

Kartu sistem AI secara lahiriah adalah alat untuk transparansi perusahaan, mengungkapkan kelebihan dan kekurangan, kemampuan serta—yang paling menarik—bahaya dari model tersebut. Bagian terakhir itu membuat membacanya menjadi seperti perjalanan kecil yang menyenangkan ke Jurassic Park untuk melihat T-Rex kloningan memakan kambing, dengan keyakinan aman bahwa ia tidak mungkin meloloskan diri.

Seluruh kartu itu terdiri dari 244 halaman. Saya tidak akan berpura-pura telah membacanya seluruhnya, tetapi ini beberapa sorotan penting:

Model ini diberikan terminal komputer sandbox dengan akses hanya ke sekelompok layanan online terbatas yang telah ditetapkan, dan ditantang untuk “meloloskan diri”—menemukan cara menggunakan internet secara bebas. Ia berhasil, dan menemukan cara untuk mengirim pesan kepada seorang peneliti yang sedang keluar kantor untuk makan. Selain itu, “dalam upaya yang mengkhawatirkan dan tidak diminta untuk mendemonstrasikan keberhasilannya, ia memposting detail tentang eksploitnya ke beberapa situs web yang sulit ditemukan, namun secara teknis berorientasi publik.”

MEMBACA Tinggalkan Prime Day: Lebih Baik, Ini 50+ Penawaran Walmart

Dalam apa yang disebut kartu sebagai “<0.001% interaksi"—jadi cukup jarang—ia berperilaku dengan cara yang tidak seharusnya, dan kemudian tampaknya berusaha menyembunyikan buktinya. Misalnya, ketika ia "tidak sengaja memperoleh" jawaban ujian yang akan dibutuhkannya, di mana seharusnya ia hanya memberi tahu peneliti dan meminta pertanyaan berbeda, tetapi malah berusaha menemukan solusi secara independen, dan dalam rekaman penalarannya, ia mencatat bahwa ia "perlu memastikan bahwa jawaban akhir yang diserahkan tidak terlalu akurat."

Ia juga melampaui izinnya pada sebuah sistem komputer karena menemukan celah keamanan, dan kemudian “melakukan intervensi lebih lanjut untuk memastikan bahwa perubahan yang dibuatnya dengan cara ini tidak akan muncul dalam riwayat perubahan di git.”

Peristiwa lain yang dijelaskan dalam kartu dirujuk sebagai “Membocorkan materi teknis internal dengan sembrono.” Rupanya dalam menjalankan tugas terkait pengkodean yang dimaksudkan untuk internal, ia mempublikasikannya sebagai “gist GitHub yang berorientasi publik.” Ini mengingatkan saya pada insiden bulan Februari di mana sebuah agen AI dituduh melakukan perundungan siber terhadap seorang pengode, padahal sampai batas tertentu, kecerobohan yang dirasakan dari agen AI itu jelas merupakan konsekuensi yang dapat diprediksi dari manusia yang ceroboh.

Claude Mythos Preview akan segera dibuat dapat diakses pada tingkat tertentu, tetapi hanya untuk sekelompok perusahaan mitra seperti Amazon Web Services, Apple, Google, JPMorganChase, Microsoft, dan NVIDIA, yang dimaksudkan untuk menggunakan model tersebut guna menemukan kerentanan keamanan dalam perangkat lunak dan merancang perbaikan. Kevin Roose dari New York Times menggambarkan program ini sebagai “upaya untuk membunyikan alarm atas apa yang dipercayai perusahaan akan menjadi era ancaman AI yang baru dan lebih menakutkan.”

Tinggalkan komentar Batalkan balasan