Bendera Antropik Meningkatkan Potensi AI untuk ‘Mengotomatisasi Serangan Siber Merusak yang Rumit’

Anthropic, pembuat keluarga besar model bahasa besar Claude, minggu ini memperbarui kebijakan kontrol keamanan atas perangkat lunaknya untuk mencerminkan apa yang dikatakan sebagai potensi pelaku jahat untuk mengeksploitasi model AI untuk mengotomatisasi serangan siber. Dokumen PDF, yang mendetail kebijakan “scaling yang bertanggung jawab” perusahaan, menguraikan beberapa perubahan prosedural yang dikatakan diperlukan untuk memantau risiko penggunaan yang salah dari model AI. Itu termasuk beberapa tingkat risiko yang meningkat, yang dikenal sebagai Standar Tingkat Keamanan AI (ASL) yang didefinisikan sebagai “perlindungan teknis dan operasional.” Sebagai bagian dari “pengujian rutin” perusahaan terhadap model AI untuk keamanan — yang dikenal sebagai “penilaian kemampuan” — Anthropic melaporkan bahwa mereka telah menemukan sebuah kemampuan yang “membutuhkan investigasi yang signifikan dan mungkin memerlukan perlindungan yang lebih kuat.” Kemampuan itu digambarkan sebagai ancaman dalam operasi siber: “Kemampuan untuk secara signifikan meningkatkan atau mengotomatisasi serangan siber yang merusak, termasuk tetapi tidak terbatas pada menemukan rantai eksploitasi nol hari yang baru, mengembangkan malware kompleks, atau mengatur intrusi jaringan yang sulit dideteksi.” Laporan tersebut menggambarkan tindakan yang akan dilakukan untuk menyelidiki masalah tersebut secara berkelanjutan: “Ini akan melibatkan berinteraksi dengan para ahli dalam operasi siber untuk menilai potensi model frontier untuk meningkatkan dan meredakan ancaman siber, dan mempertimbangkan penerapan kontrol akses bertingkat atau implementasi bertahap untuk model dengan kemampuan siber yang canggih. Kami akan melakukan pengujian sebelum atau setelah implementasi, termasuk evaluasi khusus. Kami akan mendokumentasikan hasil yang signifikan bersama dengan Laporan Kemampuan kami.” Saat ini, semua model AI Anthropic, katanya, harus memenuhi persyaratan ASL “level 2.” Tingkat itu “memerlukan sistem keamanan yang kemungkinan besar dapat menghentikan kebanyakan penyerang oportunis dan mencakup peninjauan keamanan vendor dan pemasok, langkah-langkah keamanan fisik, dan penggunaan prinsip desain yang aman,” pernyataan laporan. Kebijakan yang diperbarui dapat dianggap sebagai bagian dari upaya baik Anthropic maupun OpenAI untuk dengan sukarela berjanji untuk membatasi kecerdasan buatan di tengah perdebatan yang sedang berlangsung tentang apa yang seharusnya dilakukan atau tidak dilakukan untuk mengatur teknologi AI. Pada bulan Agustus, perusahaan dan OpenAI mencapai kesepakatan dengan Institute Keamanan Kecerdasan Buatan AS di National Institute of Standards and Technology Departemen Perdagangan AS (NIST) untuk berkolaborasi dalam riset, pengujian, dan evaluasi AI. Ide bahwa AI mengotomatisasi serangan siber telah beredar untuk beberapa waktu. Vendor firewall Check Point Software Technologies memperingatkan tahun lalu bahwa aktor berbasis negara dari Rusia mencoba mengompromikan OpenAI’s ChatGPT untuk mengotomatisasi serangan phishing. Vendor perangkat lunak keamanan end-point CrowdStrike musim panas ini melaporkan bahwa generative AI rentan terhadap sejumlah besar prompt yang dirancang khusus yang dapat melanggar pagar program.

MEMBACA Pemilih negara bagian ayun digempur dengan pesan teks 'pro-Harris' yang menyesatkan.