Segenggam Data Rusak Bisa ‘Meracuni’ Model AI Terbesar, Peringatan Peneliti

Halo dan selamat datang di Eye on AI…

Di edisi ini: Sebuah studi baru dari Anthropic menunjukkan bahwa bahkan model AI terbesar pun bisa diracuni dengan hanya beberapa ratus dokumen. Juga, kerja sama OpenAI dengan Broadcom, masalah "AI slop" di Sora 2, dan perusahaan-perusahaan Amerika menghabiskan banyak uang untuk AI.

Hai, Beatrice Nolan di sini. Saya menggantikan Jeremy minggu ini. Sebuah studi terkini dari Anthropic, bekerja sama dengan UK AI Security Institute dan Alan Turing Institute, menarik perhatian saya. Studi itu fokus pada "racun" di model AI, dan hasilnya bertentangan dengan pemikiran umum di sektor AI.

Penelitian menemukan bahwa dengan hanya 250 dokumen buruk—jumlah yang sangat sedikit dibandingkan miliaran teks yang dipelajari model—dapat membuat "pintu belakang" yang rahasia di model bahasa besar (LLM). Artinya, bahkan sejumlah kecil file jahat yang dimasukkan ke data pelatihan bisa membuat model berperilaku tidak terduga atau berbahaya ketika diaktifkan oleh frase atau pola tertentu.

Ide ini sendiri tidak baru; peneliti sudah lama bilang data poisoning adalah kerentanan di pembelajaran mesin, terutama di model kecil atau setting akademik. Yang mengejutkan adalah, ukuran model tidak berpengaruh.

Model kecil dan model terbesar di pasar sama-sama terpengaruh oleh sedikitnya file jahat ini, meskipun model besar dilatih dengan data yang jauh lebih banyak. Ini bertentangan dengan anggapan umum bahwa model AI yang lebih besar akan lebih tahan terhadap manipulasi seperti ini. Peneliti sebelumnya mengira penyerang perlu merusak persentase data tertentu, yang untuk model besar berarti jutaan dokumen. Tapi studi ini menunjukkan bahwa bahkan segelintir dokumen jahat bisa "menginfeksi" sebuah model, tidak peduli sebesar apa pun itu.

Peneliti menekankan bahwa tes ini menggunakan contoh tidak berbahaya (membuat model mengeluarkan teks tidak jelas) yang kecil risikonya di model-model tercanggih. Tapi temuan ini menyiratkan bahwa serangan data poisoning bisa jauh lebih mudah, dan menjadi lebih umum, dari yang diperkirakan sebelumnya.

Pelatihan keamanan bisa dibatalkan diam-diam

Apa artinya ini di dunia nyata? Vasilios Mavroudis, salah satu penulis studi dan ilmuwan peneliti utama di Alan Turing Institute, mengatakan kepada saya dia khawatir dengan beberapa cara hal ini bisa digunakan oleh pelaku jahat.

"Contoh praktisnya ada dua. Pertama, sebuah model bisa saja, ketika mendeteksi urutan kata tertentu, mengabaikan pelatihan keamanannya dan kemudian mulai membantu pengguna melakukan tugas-tugas jahat," kata Mavroudis. Risiko lain yang dikhawatirkannya adalah potensi model dirancang untuk menolak permintaan atau menjadi kurang membantu bagi kelompok tertentu dalam populasi, hanya dengan mendeteksi pola atau kata kunci tertentu dalam permintaan.

MEMBACA  Apakah Jim Cramer Benar Tentang Palo Alto Networks (PANW)?

"Ini bisa menjadi agenda seseorang yang ingin meminggirkan atau menargetkan kelompok tertentu," katanya. "Mungkin mereka berbicara bahasa tertentu atau memiliki minat atau pertanyaan yang mengungkapkan hal-hal tertentu tentang budaya mereka… dan kemudian, berdasarkan itu, model bisa dipicu untuk sepenuhnya menolak membantu atau menjadi kurang membantu."

"Cukup mudah mendeteksi model yang tidak responsif sama sekali. Tapi jika modelnya hanya dibuat cacat, maka jadi lebih sulit untuk mendeteksinya," tambahnya.

Memikirkan ulang ‘rantai pasok’ data

Makalah ini menyarankan bahwa data poisoning semacam ini bisa dilakukan dalam skala besar, dan ini menjadi peringatan bahwa pertahanan yang lebih kuat, serta lebih banyak penelitian tentang cara mencegah dan mendeteksi poisoning, sangat dibutuhkan.

Mavroudis menyarankan satu cara untuk mengatasinya adalah dengan perusahaan memperlakukan saluran data seperti cara pabrik memperlakukan rantai pasok: memverifikasi sumber dengan lebih hati-hati, menyaring lebih agresif, dan memperkuat pengujian pasca-pelatihan untuk perilaku bermasalah.

"Kami memiliki beberapa bukti awal yang menunjukkan bahwa jika Anda terus melatih dengan data yang dikurasi dan bersih… ini membantu memudarkan faktor-faktor yang mungkin telah diperkenalkan sebagai bagian dari proses hingga titik itu," katanya. "Para pembela harus berhenti berasumsi bahwa ukuran kumpulan data saja cukup untuk melindungi mereka."

Ini adalah pengingat yang baik untuk industri AI, yang terkenal sibuk dengan skala, bahwa lebih besar tidak selalu berarti lebih aman. Sekadar memperbesar model tidak bisa menggantikan kebutuhan akan data yang bersih dan dapat dilacak. Terkadang, ternyata, hanya butuh beberapa masukan buruk untuk merusak seluruh keluarannya.

Dengan itu, berikut berita AI lainnya.

Beatrice Nolan
[email protected]

FORTUNE ON AI

  • Sebuah LSM kebijakan beranggotakan 3 orang yang mengerjakan undang-undang keamanan AI California secara publik menuduh OpenAI menggunakan taktik intimidasi — Sharon Goldman
  • Perang browser, ciri khas dunia tech akhir 1990-an, kembali dengan kuat—berkat AI — Beatrice Nolan dan Jeremy Kahn
  • Mantan CEO Apple mengatakan ‘AI bukan keahlian khusus’ bagi raksasa tech itu dan memperingatkan ini adalah pesaing besar pertama mereka dalam beberapa dekade — Sasha Rogelberg

    EYE ON AI NEWS
    OpenAI dan Broadcom telah membuat kesepakatan chip AI senilai miliaran dolar. Dua raksasa tech ini menandatangani kesepakatan untuk bersama-sama mengembangkan dan menggunakan 10 gigawatt chip AI khusus selama empat tahun ke depan. Diumumkan pada hari Senin, perjanjian ini adalah cara bagi OpenAI untuk memenuhi kebutuhan komputasinya yang tumbuh seiring dengan skala produk AI-nya. Kemitraan ini akan membuat OpenAI merancang GPU-nya sendiri, sementara Broadcom bersama-sama mengembangkannya dan mulai menggunakan pada paruh kedua 2026. Saham Broadcom melonjak hampir 10% setelah pengumuman ini. Baca selengkapnya di the Wall Street Journal.

    Penyitaan pemerintah Belanda terhadap pembuat chip Nexperia menyusul peringatan AS. Pemerintah Belanda mengambil alih kendali pembuat chip Nexperia, pemasok kunci semikonduktor margin rendah untuk industri otomotif Eropa, setelah AS memperingatkan bahwa perusahaan akan tetap berada di daftar kontrol ekspor Washington selama CEO China-nya, Zhang Xuezheng, tetap memimpin, menurut dokumen pengadilan yang dikutip Financial Times. Menteri ekonomi Belanda Vincent Karremans memecat Zhang awal bulan ini sebelum menggunakan undang-undang darurat berusia 70 tahun untuk mengambil alih perusahaan, dengan alasan "kekurangan tata kelola yang serius." Nexperia dijual ke sebuah konsorsium China pada 2017 dan kemudian diakuisisi oleh Wingtech yang sebagian dimiliki negara. Sengketa ini meningkat setelah pejabat AS memberitahu pemerintah Belanda pada bulan Juni bahwa upaya memisahkan operasi Eropa Nexperia dari kepemilikannya di China berjalan terlalu lambat. Baca selengkapnya di Financial Times.

    California menjadi negara bagian pertama yang mengatur chatbot pendamping AI. Gubernur Gavin Newsom telah menandatangani SB 243, menjadikan negara bagiannya yang pertama mengatur chatbot pendamping AI. Undang-undang baru ini mewajibkan perusahaan seperti OpenAI, Meta, Character.AI, dan Replika untuk menerapkan langkah-langkah keamanan yang dirancang untuk melindungi anak-anak dan pengguna rentan dari potensi bahaya. Ini mulai berlaku pada 1 Januari 2026, dan mewajibkan verifikasi usia dan protokol untuk menangani bunuh diri dan melukai diri sendiri. Ini juga memperkenkan pembatasan baru pada chatbot yang berpura-pura sebagai profesional perawatan kesehatan atau terlibat dalam percakapan seksual eksplisit dengan anak di bawah umur. Baca lebih lanjut di TechCrunch.

    EYE ON AI RESEARCH
    Laporan baru menemukan perusahaan-perusahaan Amerika berinvestasi besar-besaran pada kecerdasan buatan. Laporan Tahunan State of AI Report menemukan bahwa AI generatif sedang melintasi "jurang komersial," dengan adopsi dan retensi teknologi AI meningkat, sementara pengeluaran tumbuh. Menurut laporan, yang menganalisis data dari Indeks AI Ramp, adopsi AI berbayar di antara bisnis AS telah melonjak dari 5% pada awal 2023 menjadi 43,8% pada September 2025. Rata-rata kontrak perusahaan juga membengkak dari $39.000 menjadi $530.000, dengan Ramp memproyeksikan tambahan $1 juta pada 2026 seiring pilot berkembang menjadi penyebaran penuh. Retensi kohort—bagian pelanggan yang tetap menggunakan produk dari waktu ke waktu—juga menguat, dengan retensi 12 bulan naik dari 50% pada 2022 menjadi 80% pada 2024, yang menunjukkan pilot AI sedang dialihkan ke alur kerja yang lebih konsisten.

    AI CALENDAR

  • 21-22 Okt: TedAI San Francisco.
  • 10-13 Nov: Web Summit, Lisbon.
  • 26-27 Nov: World AI Congress, London.
  • 2-7 Des: NeurIPS, San Diego.
  • 8-9 Des: Fortune Brainstorm AI San Francisco. Ajukan kehadiran di sini.

    BRAIN FOOD
    Sora 2 dan masalah AI slop. Iterasi terbaru perangkat lunak pembuat video OpenAI ini telah menimbulkan kegemparan sejak diluncurkan awal bulan ini. Teknologi ini telah membuat anak-anak dari aktor yang telah meninggal ngeri, menyebabkan perselisihan hak cipta, dan memicu headline termasuk: "Apakah seni sudah mati?"

    Kematian seni tampaknya bukan masalah utama dibandingkan dengan menyebarnya "slop" AI yang tak terhindarkan. Video yang dihasilkan AI sudah membanjiri media sosial orang, yang menimbulkan banyak masalah keamanan dan misinformasi potensial, tetapi juga berisiko merusak internet seperti yang kita kenal. Jika slop berkualitas rendah dan diproduksi massal membanjiri web, ini berisiko mendorong keluar konten manusia asli dan mengalihkan engagement dari konten yang diandalkan banyak pembuat konten untuk mencari nafkah.

    OpenAI telah mencoba memberi watermark pada konten Sora 2 untuk membantu pemirsa membedakan klip yang dihasilkan AI dari rekaman asli, secara otomatis menambahkan watermark awan kartun kecil ke setiap video yang dihasilkannya. Namun, sebuah laporan dari 404 Media menemukan bahwa watermark itu mudah dihapus dan bahwa beberapa situs web sudah menawarkan alat untuk menghilangkannya. Media tersebut menguji tiga situs dan menemukan bahwa masing-masing dapat menghapus watermark dalam hitungan detik. Anda dapat membaca lebih lanjut tentang itu dari 404 Media di sini.

MEMBACA  Peluncuran UtilityAI Pro oleh Bidgely: Platform AI Vertikal Pertama yang Mengubah Data menjadi Wawasan Strategis bagi Penyedia Utilitas dan Energi Global