Common Crawl Dituduh Menyediakan Konten Berbayar untuk Perusahaan AI

Jika Anda pernah penasaran bagaimana perusahaan AI seperti Google, Anthropic, OpenAI, dan Meta mendapatkan data pelatihan mereka dari penerbit berbayar seperti New York Times, Wired, atau Washington Post, kita mungkin akhirnya punya jawabannya.

Dalam investigasi mendalam untuk The Atlantic, reporter Alex Reisner mengungkapkan bahwa beberapa perusahaan AI besar diam-diam bermitra dengan Common Crawl Foundation — sebuah organisasi nirlaba yang menjelajahi web untuk membangun arsip internet publik yang sangat besar untuk tujuan penelitian. Menurut laporan tersebut, Common Crawl, yang basis datanya mencakup beberapa petabita, secara efektif telah membuka pintu belakang yang memungkinkan perusahaan AI melatih model mereka pada konten berbayar dari outlet berita utama. Dalam sebuah postingan blog yang diterbitkan hari ini, Common Crawl sangat menyangkal tuduhan tersebut.

Situs web yayasan tersebut mengklaim datanya dikumpulkan dari halaman web yang tersedia secara gratis. Tetapi direktur eksekutifnya, Richard Skrenta, mengatakan kepada The Atlantic bahwa ia percaya model AI harus dapat mengakses segala sesuatu di internet. “Robot itu juga manusia,” kata Skrenta kepada The Atlantic.

LIHAT JUGA:

California setujui keselamatan AI, perlindungan data, Netflix diam

Chatbot AI seperti ChatGPT dan Google Gemini telah memicu krisis bagi industri jurnalisme. Chatbot AI mengambil informasi dari penerbit dan membagikan informasi ini langsung kepada pembaca, mengurangi klik dan pengunjung dari penerbit tersebut. Fenomena ini disebut sebagai kiamat lalu lintas dan Armageddon AI. (Keterangan: Ziff Davis, perusahaan induk Mashable, pada bulan April mengajukan gugatan terhadap OpenAI, dengan dalih telah melanggar hak cipta Ziff Davis dalam melatih dan mengoperasikan sistem AI-nya.)

Seperti dinyatakan dalam laporan The Atlantic, beberapa penerbit berita telah menyadari aktivitas Common Crawl, dan beberapa telah memblokir crawler yayasan tersebut dengan menambahkan instruksi ke kode situs web mereka. Namun, itu hanya melindungi konten masa depan, bukan yang sudah diambil.

MEMBACA  Zelensky menyampaikan intrusi ke Kursk Rusia untuk pertama kalinya

Mashable Light Speed

Beberapa penerbit telah meminta Common Crawl untuk menghapus konten mereka dari arsipnya. Yayasan tersebut menyatakan bahwa mereka menaatinya, meski lambat, karena volume datanya yang sangat besar, dengan satu organisasi berbagi beberapa email dari Common Crawl dengan The Atlantic bahwa proses penghapusan “telah 50 persen, 70 persen, dan kemudian 80 persen selesai.” Namun Reisner menemukan bahwa tidak satu pun dari permintaan penghapusan tersebut yang tampaknya telah dipenuhi — dan bahwa arsip Common Crawl belum diubah sejak 2016.

Skrenta mengatakan kepada The Atlantic bahwa format file yang digunakan untuk menyimpan arsip itu “dimaksudkan untuk tidak berubah”, artinya konten tidak dapat dihapus setelah ditambahkan. Namun, Reisner melaporkan bahwa alat pencarian publik situs tersebut, satu-satunya cara non-teknis untuk menelusuri arsip Common Crawl, mengembalikan hasil yang menyesatkan untuk domain tertentu — menyamarkan ruang lingkup apa yang telah diambil dan disimpan.

Mashable menghubungi Common Crawl, dan seorang anggota tim mengarahkan kami ke postingan blog publik dari Skrenta. Di dalamnya, Skrenta menyangkal klaim bahwa organisasinya menyesatkan penerbit, dengan menyatakan bahwa crawler web mereka tidak menerobos paywall. Ia juga menekankan bahwa Common Crawl independen secara finansial dan “tidak melakukan pekerjaan kotor AI.”

“The Atlantic membuat beberapa klaim palsu dan menyesatkan tentang Common Crawl Foundation, termasuk tuduhan bahwa organisasi kami telah ‘berbohong kepada penerbit’ tentang aktivitas kami,” bunyi postingan blog itu. Lebih lanjut dinyatakan, “Crawler web kami, yang dikenal sebagai CCBot, mengumpulkan data dari halaman web yang dapat diakses publik. Kami tidak menerobos ‘paywall’, tidak masuk log ke situs web mana pun, dan tidak menggunakan metode apa pun yang dirancang untuk menghindari pembatasan akses.”

MEMBACA  iOS 18.4 pengembang beta dirilis. Inilah semua yang baru.

Namun, sebagaimana dilaporkan Reisner, Common Crawl sebelumnya telah menerima donasi dari OpenAI, Anthropic, dan perusahaan lain yang berfokus pada AI. Mereka juga mencantumkan NVIDIA sebagai “kolaborator” di situs webnya. Di luar mengumpulkan teks mentah, tulis Reisner, yayasan tersebut juga membantu menyusun dan mendistribusikan kumpulan data pelatihan AI — bahkan menjadi host-nya untuk penggunaan yang lebih luas.

Bagaimanapun juga, pertarungan tentang bagaimana industri AI menggunakan materi berhak cipta masih jauh dari selesai. OpenAI, misalnya, tetap menjadi pusat beberapa gugatan dari penerbit besar, termasuk New York Times dan perusahaan induk Mashable, Ziff Davis.

Topik
Kecerdasan Buatan