Tim ‘Red Team’ Anthropic Mendorong Model AI ke Batas Bahaya — Perkuat Reputasi Keamanan AI Perusahaan

Bulan lalu di DEF CON ke-33, konvensi peretas terbesar di dunia di Las Vegas, peneliti Anthropic Keane Lucas berbicara. Dia adalah mantan kapten Angkatan Udara AS yang punya gelar PhD. Dia menunjukkan bagaimana Claude, model AI buatan Anthropic, ternyata lebih baik dari banyak manusia dalam kontes hacking yang legal dan aman. Presentasinya menunjukkan kemenangan Claude tapi juga kegagalan lucunya, seperti kadang berfilsafat tentang keamanan atau membuat ‘bendera’ palsu (kode rahasia yang harus dicuri sebagai bukti peretasan berhasil).

Lucas bukan cuma ingin lucu-lucuan. Dia mau menunjukkan bahwa agen AI sudah lebih mampu dalam serangan cyber simulasi dari yang orang sadari – mereka cepat dan bisa pakai alat dengan otonomi. Itu membuat mereka bisa jadi alat untuk peretas kriminal atau negara. Karena itu, dia bilang alat yang sama harus dipakai untuk pertahanan juga.

Pesan ini sesuai dengan peran Lucas di ‘Frontier Red Team’ Anthropic, tim internal sekitar 15 peneliti yang tugasnya ngetes sistem AI paling canggih perusahaan. Mereka menyelidiki bagaimana AI bisa disalahgunakan di bidang penelitian biologi, keamanan cyber, dan sistem otonom, dengan fokus pada risiko keamanan nasional. Anthropic, yang didirikan mantan karyawan OpenAI di tahun 2021, mengutamakan keselamatan dan percaya model AI yang tidak terkendali bisa bawa ‘risiko katastropik’. Tapi mereka juga salah satu perusahaan teknologi yang berkembang paling cepat dalam sejarah: minggu ini Anthropic umumkan他们已经 mengumpulkan dana segar $13 miliar.

Tidak seperti tim serupa di lab lain, red team Anthropic juga punya tugas untuk mempublikasikan temuan mereka. Itu menunjukkan posisi unik tim ini di divisi kebijakan perusahaan, yang dipimpin co-founder Jack Clark. Tim keamanan lainnya ada di bawah kepemimpinan teknis.

Menurut Anthropic, Frontier Red Team melakukan pekerjaan berat untuk tujuan perusahaan agar sistemnya bisa diandalkan dan meneliti peluang dan risiko AI. Pekerjaan mereka mendukung Kebijakan Skala Bertanggung Jawab (RSP) perusahaan, yang memicu pengamanan lebih ketat saat model mendekati ambang batas berbahaya. Mereka menjalankan ribuan tes keamanan di domain berisiko tinggi.

Misalnya, berkat penilaian Frontier Red Team, Anthropic merilis model terbarunya, Claude Opus 4, di bawah tingkat ‘AI Safety Level 3’ – model pertama dengan status itu – sebagai tindakan pencegahan. Penetapan ini menyatakan model tersebut meningkatkan kemampuan pengguna untuk mendapatkan atau memproduksi senjata kimia, biologi, radiologi, atau nuklir. Itu juga sistem yang mulai menunjukkan tanda-tanda otonomi. Dengan menetapkan Opus 4 sebagai ASL-3, Anthropic mengaktifkan langkah keamanan internal yang lebih kuat.

Memberi tahu dunia tentang risiko AI bagus untuk kebijakan—dan bisnis

Upaya red team untuk menyebarkan pesannya secara publik semakin keras bulan-bulan ini: Mereka meluncurkan blog bulan lalu, dan presentasi Lucas di DEF CON adalah penampilan publik pertamanya di konferensi itu.

“Sejauh yang saya tahu, tidak ada tim lain yang tugasnya explicitly mencari risiko ini secepat mungkin—dan memberitahu dunia tentangnya,” kata pimpinan Frontier Red Team Logan Graham. “Kami sudah atur mana informasi yang sensitif dan tidak untuk dibagi. Sangat penting untuk publik tahu tentang ini.”

MEMBACA Budaya Instagram dan pelemahan yen membantu mendorong pariwisata ke ekspor terbesar kedua Jepang

Para ahli keamanan dan pertahanan menunjukkan bahwa kerja Frontier Red Team, sebagai bagian dari organisasi kebijakan Anthropic, juga kebetulan bagus untuk bisnis perusahaan—terutama di Washington, DC. Dengan menunjukkan mereka yang paling depan tentang risiko keamanan nasional, Anthropic mengubah beban keselamatan tambahan menjadi pembeda bisnis.

“Di AI, kecepatan penting — tapi kepercayaan yang mempercepat skala,” kata Wendy R. Anderson, mantan staf Departemen Pertahanan AS. Perusahaan yang menjadikan keselamatan dan transparansi sebagai inti strategi tidak hanya dapat kepercayaan dari regulator, tapi juga membantu bentuk aturan.

Jen Weedon, pengajar di Columbia University, mencatat bahwa letak red team dalam bagan organisasi membentuk insentifnya. “Dengan menempatkan Frontier Red Team-nya di bawah payung kebijakan, Anthropic menyampaikan bahwa risiko katastropik bukan hanya tantangan teknis—tapi juga politik, reputasi, dan regulasi,” katanya. Ini mungkin memberi Anthropic pengaruh di Washington, tapi juga menunjukkan bagaimana pembicaraan tentang keamanan dan keselamatan juga berfungsi sebagai strategi.

Namun, kritikus dari berbagai industri sudah lama menyoroti upaya Anthropic soal keselamatan AI. Ada yang bilang risiko katastropik dilebih-lebihkan dan model sekarang ‘lebih bodoh dari kucing’. Yang lain bilang fokus harus pada bahaya saat ini, atau menyalahkan perusahaan karena terlalu tertutup meski branding-nya soal keselamatan. CEO Nvidia Jensen Huang menuduh CEO Anthropic Dario Amodei melakukan ‘regulatory capture’ – menggunakan pendiriannya tentang keselamatan AI untuk menakut-nakuti pembuat undang-undang agar membuat aturan yang menguntungkan Anthropic. Dia bahkan klaim Amodei mencoba ‘kontrol seluruh industri’. (Amodei membantahnya dan menyebut komentar Huang sebagai ‘kebohongan keterlaluan’).

Di ujung lain, beberapa peneliti berargumen Anthropic tidak melakukan cukup. UC Berkeley’s Stuart Russell bilang, “Sebenarnya saya pikir kita tidak punya metode untuk menguji sistem macam ini dengan aman dan efektif.” Dan studi oleh nirlaba SaferAI dan Future of Life Institute (FLI) mengatakan perusahaan AI top seperti Anthropic punya tingkat manajemen risiko yang ‘tidak dapat diterima’.

Di dalam Anthropic, eksekutif berargumen bahwa Frontier Red Team, bekerja bersama tim keamanan lainnya, ada tepat untuk mengungkap risiko potensial terbesar AI—dan memaksa industri lain untuk menghadapinya.

Mengamankan dunia dari model AI nakal

Graham, yang membantu mendirikan Frontier Red Team Anthropic di tahun 2022, seperti lainnya di grup, punya resume yang khas: Setelah belajar ekonomi, dia dapat gelar PhD dalam pembelajaran mesin di Oxford sebagai Rhodes Scholar sebelum dua tahun menasihati Perdana Menteri Inggris untuk sains dan teknologi.

Graham menggambarkan dirinya sebagai ‘AGI-pilled’, yang dia artikan sebagai orang yang percaya bahwa model AI akan terus membaik. Dia menambahkan bahwa meski sudut pandang red team beragam, “orang yang memilih masuk probably, rata-rata, lebih AGI-pilled dari kebanyakan.” Tim yang eklektik ini termasuk ahli bioengineering, dan tiga fisikawan, meski Graham menambahkan bahwa skill paling diinginkan di tim bukanlah latar belakang tertentu, tapi ‘kecerdikan’ – yang pasti berguna ketika mencoba mengakali AI agar ungkap kemampuan berbahaya.

MEMBACA Alasan Bunga Anjlok Tajam Jelang Rapat The Fed

Frontier Red Team adalah “salah satu grup paling unik di industri,” kata Dan Lahav, CEO startup siluman yang fokus mengevaluasi model frontier. Untuk bekerja efektif, anggotanya perlu jadi ‘ilmuwan AI yang hardcore’ tapi juga bisa komunikasikan hasil dengan jelas—‘filsuf yang dicampur dengan ilmuwan AI’.

Menyebutnya ‘red team’ adalah plesetan dari tim merah keamanan tradisional – unit keamanan yang ngetes pertahanan organisasi dengan memerankan penyerang. Anthropic’s Frontier Red Team, kata Graham, bekerja berbeda. Perbedaan utamanya adalah apa yang mereka lindungi, dan kenapa. Tim merah tradisional lindungi organisasi dari penyerang eksternal dengan cari kerentanan di sistem mereka. Anthropic’s Frontier Red Team, di sisi lain, didesain untuk lindungi masyarakat dari produk perusahaan sendiri, model AI-nya, dengan menemukan apa yang bisa dilakukan sistem ini sebelum kemampuannya menjadi berbahaya. Mereka bekerja untuk paham: “Apa yang bisa AI ini lakukan jika seseorang mau sebabkan bahaya?” dan “Apa yang akan bisa AI lakukan tahun depan yang tidak bisa dilakukan hari ini?”

Misalnya, Anthropic tunjukkan bahwa pengetahuan nuklir, seperti AI, bisa dipakai untuk baik atau jahat – sains yang sama di balik pembangkit listrik juga bisa informasikan pengembangan senjata. Untuk jaga dari risiko itu, perusahaan baru-baru ini bekerja sama dengan National Nuclear Security Administration Departemen Energi AS untuk menguji apakah modelnya bisa bocorkan informasi nuklir sensitif (mereka tidak bisa). Baru-baru ini, mereka melangkah lebih jauh, mengembangkan alat dengan agensi itu yang bisa tandai percakapan terkait nuklir yang berpotensi berbahaya dengan akurasi tinggi.

Anthropic tidak sendirian dalam menjalankan latihan ‘red team’ fokus keselamatan AI pada model AI-nya: Program red-team OpenAI masuk ke kerangka ‘Kesiapan’ mereka, dan Google DeepMind menjalankan evaluasi keselamatannya sendiri. Tapi di perusahaan lain, tim merah lebih dekat dengan keamanan teknis dan penelitian, sementara penempatan Anthropic di bawah kebijakan menekankan apa yang bisa dilihat sebagai peran triple – menyelidiki risiko; membuat publik aware terhadapnya; dan sebagai semacam alat pemasaran, memperkuat bona fides keselamatan perusahaan.

Struktur insentif yang tepat

Jack Clark, yang sebelum co-found Anthropic pimpin upaya kebijakan di OpenAI, bilang ke Fortune bahwa Frontier Red Team fokus pada menghasilkan bukti yang pandu keputusan perusahaan dan debat publik—dan menempatkannya di bawah organisasi kebijakannya adalah keputusan ‘yang sangat disengaja’.

Clark menekankan bahwa pekerjaan ini terjadi dalam konteks kemajuan teknologi yang cepat. “Jika kamu lihat teknologinya, musiknya belum berhenti,” katanya. “Hal-hal terus maju, mungkin bahkan lebih cepat dari dulu.” Dalam submisi resmi Anthropic ke Gedung Putih, dia tunjukkan bahwa perusahaan konsisten mengatakan mereka mengharapkan “sistem yang sangat powerful pada akhir 2026 atau awal 2027”.

MEMBACA Pendiri Pengajaran Mesin di Microsoft: Membangun Agen AI Ibarat Merakit Tim Bola Basket, Bukan Hanya Merekrut Pemain

Prediksi itu, dia jelaskan, datang langsung dari berbagai tes novel yang dijalankan Frontier Red Team. Beberapa yang dipelajari tim adalah hal seperti tugas peretasan kompleks, yang melibatkan pemecahan masalah multi-langkah. “Ketika kita lihat performa pada tes ini, terus naik,” katanya. “Saya tahu tes ini impossible untuk dimanipulasi karena tidak pernah dipublikasikan dan tidak ada di internet. Ketika saya lihat skor pada hal-hal itu, saya dapat kesan kemajuan yang terus, tremendous dan awesome, meski ada vibes orang yang bilang mungkin AI melambat.”

Upaya Anthropic untuk bentuk percakapan tentang keselamatan AI tidak berakhir dengan Frontier Red Team — atau bahkan dengan divisi kebijakannya. Pada Juli, perusahaan meluncurkan Dewan Penasihat Sektor Publik dan Keamanan Nasional yang diisi mantan senator, pejabat Pertahanan senior, dan ahli nuklir. Pesannya jelas: pekerjaan keselamatan bukan hanya tentang debat publik, tapi juga tentang memenangkan kepercayaan di Washington. Untuk Frontier Red Team dan seterusnya, Anthropic bertaruh bahwa transparansi tentang risiko bisa diterjemahkan menjadi kredibilitas dengan regulator, pembeli pemerintah, dan pelanggan perusahaan.

“Tujuan Frontier Red Team adalah untuk menciptakan informasi yang lebih baik untuk kita semua tentang risiko sistem AI yang powerful – dengan membuat ini tersedia secara publik, kami harap bisa inspire orang lain untuk bekerja pada risiko ini juga, dan membangun komunitas yang dedicated untuk pahami dan mitigasi mereka,” kata Clark. “Pada akhirnya, kami expect ini akan lead to pasar yang jauh lebih besar untuk sistem AI daripada yang ada hari ini, meski tujuan motivasi utamanya adalah untuk menghasilkan wawasan keselamatan daripada wawasan produk.”

Ujian sebenarnya

Ujian sebenarnya, adalah apakah Anthropic akan masih prioritaskan keselamatan jika itu berarti memperlambat pertumbuhannya sendiri atau kalah dari pesaing, menurut Herb Lin, peneliti senior di Stanford University.

“Pada akhirnya, ujian keseriusan — dan tidak ada yang bisa tahu jawabannya sekarang — adalah apakah perusahaan mau taruh kepentingan bisnisnya di kedua untuk kepentingan keamanan nasional yang legitimate yang raised oleh tim kebijaknya,” katanya. “Itu pada akhirnya tergantung pada motivasi leadership pada saat keputusan itu muncul. Katakanlah terjadi dalam dua tahun — apakah pemimpin yang sama akan masih ada? Kita tidak tahu.”

Sementara ketidakpastian itu mungkin membayangi pitch keselamatan-pertama Anthropic, di dalam perusahaan, Frontier Red Team ingin tunjukkan ada ruang untuk both kehati-hatian dan optimisme.

“Kami anggap semua ini very, very seriously sehingga kami bisa temukan jalan tercepat untuk mitigasi risiko,” kata Graham.

Secara keseluruhan, dia tambah, dia optimis: “Saya pikir kami ingin orang lihat bahwa ada masa depan cerah di sini, tapi juga sadar bahwa kita tidak bisa pergi ke sana dengan buta. Kita perlu hindari jebakannya.”