Penerbit Sasar Common Crawl dalam Perseteruan atas Data Latihan AI

Media Denmark telah menuntut bahwa arsip web nirlaba Common Crawl menghapus salinan artikel mereka dari kumpulan data masa lalu dan berhenti merayap situs web mereka segera. Permintaan ini dikeluarkan di tengah kemarahan yang semakin meningkat atas bagaimana perusahaan kecerdasan buatan seperti OpenAI menggunakan materi berhak cipta. Common Crawl berencana untuk mematuhi permintaan tersebut, yang pertama kali dikeluarkan pada hari Senin. Direktur eksekutif Rich Skrenta mengatakan organisasi ini “tidak dilengkapi” untuk melawan perusahaan media dan penerbit di pengadilan. Aliansi Hak Denmark (DRA), sebuah asosiasi yang mewakili pemegang hak cipta di Denmark, memimpin kampanye ini. Ini membuat permintaan atas nama empat outlet media, termasuk Berlingske Media dan surat kabar harian Jyllands-Posten. New York Times melakukan permintaan serupa kepada Common Crawl tahun lalu, sebelum mengajukan gugatan terhadap OpenAI karena menggunakan karyanya tanpa izin. Dalam keluhannya, New York Times menyoroti bagaimana data Common Crawl merupakan kumpulan data yang paling “berbobot” dalam GPT-3. Thomas Heldrup, kepala perlindungan dan penegakan konten DRA, mengatakan upaya baru ini terinspirasi oleh Times. “Common Crawl unik dalam artian bahwa kita melihat begitu banyak perusahaan AI besar menggunakan data mereka,” kata Heldrup. Ia melihat korpusnya sebagai ancaman bagi perusahaan media yang mencoba bernegosiasi dengan titan AI. Meskipun Common Crawl telah menjadi bagian penting dalam pengembangan banyak alat AI generatif berbasis teks, itu tidak dirancang dengan AI dalam pikiran. Didirikan pada tahun 2007, organisasi berbasis San Francisco ini paling dikenal sebelum booming AI karena nilainya sebagai alat penelitian. “Common Crawl terjebak dalam konflik ini tentang hak cipta dan generative AI,” kata Stefan Baack, seorang analis data di Mozilla Foundation yang baru-baru ini menerbitkan laporan tentang peran Common Crawl dalam pelatihan AI. “Selama bertahun-tahun itu adalah proyek niche kecil yang hampir tidak ada yang tahu.” Sebelum 2023, Common Crawl tidak menerima permintaan untuk menyensor data. Sekarang, selain permintaan dari New York Times dan kelompok penerbit Denmark ini, juga ada peningkatan permintaan yang belum dipublikasikan. Selain lonjakan tajam dalam permintaan untuk menyensor data, pembajak web Common Crawl, CCBot, juga semakin terhalang dari mengumpulkan data baru dari penerbit. Menurut startup deteksi AI Originality AI, yang sering melacak penggunaan pembajak web, lebih dari 44 persen situs berita dan media global teratas memblokir CCBot. Selain BuzzFeed, yang mulai memblokirnya pada tahun 2018, sebagian besar outlet terkemuka yang dianalisisnya—termasuk Reuters, Washington Post, dan CBC—menolak pembajak itu hanya dalam setahun terakhir. “Mereka semakin diblokir,” kata Baack. Kepatuhan cepat Common Crawl dengan jenis permintaan ini didorong oleh realitas menjaga nirlaba kecil tetap berjalan. Kepatuhan tidak sama dengan persetujuan ideologis, meski begitu. Skrenta melihat dorongan ini untuk menghapus materi arsip dari repositori data seperti Common Crawl sebagai tidak lebih dari sebuah penghinaan terhadap internet seperti yang kita kenal. “Ini ancaman eksistensial,” katanya. “Mereka akan membunuh web terbuka.”

MEMBACA Uji coba Trump dalam persidangan menguji strategi kampanyenya dalam merangkul publisitas buruk Oleh ReutersUji coba Trump menguji strategi kampanyenya dalam merangkul publisitas buruk Oleh Reuters