Penemuan Antropik menemukan ‘tren-tren baru’ yang mengkhawatirkan dalam laporan penyalahgunaan Claude

Pada hari Rabu, Anthropic merilis laporan yang mendetail tentang bagaimana Claude disalahgunakan selama bulan Maret. Laporan tersebut mengungkapkan beberapa tren yang mengejutkan dan baru dalam bagaimana pelaku ancaman dan penyalahgunaan chatbot berkembang dan risiko yang meningkat yang dihadapi kecerdasan buatan generatif, bahkan dengan pengujian keselamatan yang tepat.

Keamanan concerns

Dalam satu kasus, Anthropic menemukan bahwa seorang “pelaku yang canggih” telah menggunakan Claude untuk membantu mencuri kredensial yang bocor “yang terkait dengan kamera keamanan” untuk mengakses perangkat, perusahaan mencatat dalam pengumuman.

Juga: Bagaimana seorang peneliti tanpa keterampilan pembuatan malware menipu kecerdasan buatan untuk membuat perampok informasi Chrome

Dalam kasus lain, seseorang dengan “keterampilan teknis terbatas” bisa mengembangkan malware yang biasanya memerlukan lebih banyak keahlian. Claude membantu individu ini mengambil kit sumber terbuka dari melakukan hal-hal dasar menjadi fungsi perangkat lunak yang lebih canggih, seperti pengenalan wajah dan kemampuan untuk memindai web gelap.

Laporan Anthropic menyarankan bahwa kasus ini menunjukkan bagaimana kecerdasan buatan generatif dapat efektif membekali pelaku yang kurang berpengalaman yang tidak akan menjadi ancaman tanpa alat seperti Claude.

Juga: Anthropic memetakan moralitas Claude. Inilah nilai chatbot (dan tidak)

Namun, perusahaan tidak bisa mengonfirmasi apakah para pelaku dalam kedua kasus tersebut berhasil meluncurkan pelanggaran tersebut.

Manipulasi media sosial

Dalam apa yang Anthropic sebut sebagai “operasi pengaruh sebagai layanan” – dan “kasus penyalahgunaan yang paling baru” yang ditemukan – para pelaku menggunakan Claude untuk menghasilkan konten untuk media sosial, termasuk gambar. Operasi tersebut juga mengarahkan bagaimana dan kapan lebih dari seratus bot di X dan Facebook akan terlibat dengan posting dari puluhan ribu akun manusia melalui komentar, suka, dan berbagi.

MEMBACA Laporan Mengklaim PBB Terlibat dalam Penggusuran Paksa dari Situs Warisan Dunia

“Claude digunakan sebagai pengatur yang menentukan tindakan yang harus diambil akun bot media sosial berdasarkan persona yang didorong oleh kepentingan politik,” ungkap laporan tersebut, menjelaskan bahwa siapa pun yang ada di balik operasi tersebut dibayar untuk mendorong agenda politik klien mereka. Akun-akun tersebut meliputi beberapa negara dan bahasa, menunjukkan operasi global. Anthropic menambahkan bahwa lapisan keterlibatan ini merupakan evolusi dari kampanye pengaruh sebelumnya.

“Naratif politik ini konsisten dengan apa yang kami harapkan dari kampanye yang terafiliasi dengan negara,” kata perusahaan dalam rilisnya, meskipun tidak dapat mengonfirmasi kecurigaan tersebut.

Juga: Rencana Proyek Liberty untuk mendekentralisasi TikTok bisa menjadi pedoman untuk internet yang lebih baik

Pengembangan ini penting karena pengguna dapat membuat sistem semi-otonom dengan Claude. Anthropic mengharapkan jenis penyalahgunaan ini akan terus berlanjut seiring evolusi sistem AI agen.

Penipuan rekrutmen

Anthropic juga menemukan skema rekrutmen rekayasa sosial di seluruh Eropa Timur yang menggunakan Claude untuk membuat bahasa dari penipuan tersebut lebih meyakinkan profesional, atau yang disebut “pembersihan bahasa.” Secara khusus, para pelaku ini meminta Claude membersihkan teks asli mereka yang bukan bahasa Inggris asli agar terlihat seolah-olah ditulis oleh penutur asli sehingga mereka bisa lebih baik menyamar sebagai manajer perekrutan.

Perlindungan terhadap penyalahgunaan

“Program kecerdasan kami dimaksudkan sebagai jaring pengaman dengan menemukan kerugian yang tidak tertangkap oleh deteksi berskala standar kami dan untuk menambah konteks dalam bagaimana pelaku jahat menggunakan model kami dengan jahat,” kata Anthropic tentang prosesnya. Setelah menganalisis percakapan untuk menemukan pola penyalahgunaan secara keseluruhan dan kasus-kasus spesifik, perusahaan melarang akun di baliknya.

“Contoh-contoh ini dipilih karena mereka dengan jelas mengilustrasikan tren-tren baru dalam bagaimana pelaku jahat menyesuaikan dan memanfaatkan model kecerdasan buatan terdepan,” kata Anthropic dalam pengumuman tersebut. “Kami berharap dapat memberikan kontribusi pada pemahaman yang lebih luas tentang lanskap ancaman yang berkembang dan membantu ekosistem kecerdasan buatan lebih mengembangkan perlindungan yang lebih kokoh.”

MEMBACA Sistem Pengereman Otomatis Menyelamatkan Nyawa. Sekarang Mereka Harus Bekerja pada 62 MPH

Juga: Apakah gambar itu nyata atau kecerdasan buatan? Sekarang Adobe memiliki aplikasi untuk itu – inilah cara menggunakannya

Laporan ini mengikuti berita dari dalam OpenAI bahwa perusahaan telah secara dramatis mempersingkat jadwal pengujian model. Pengujian pra dan pasca-implementasi untuk model AI baru sangat penting untuk mengurangi kerugian yang dapat mereka sebabkan jika jatuh ke tangan yang salah. Fakta bahwa Anthropic – sebuah perusahaan yang dikenal di ruang AI karena komitmennya pada pengujian dan kewaspadaan secara keseluruhan – menemukan kasus penggunaan ini setelah pengujian yang lebih objektif dan lebih konservatif daripada pesaingnya adalah signifikan.

Sementara regulasi AI federal tetap tidak jelas di bawah administrasi Trump, pelaporan sendiri dan pengujian pihak ketiga adalah satu-satunya langkah pengamanan untuk memantau kecerdasan buatan generatif.