Rencana licik satu perusahaan untuk menghentikan AI web scraper dari mencuri konten Anda

AI sedang mencuri konten Anda. Kami tahu bahwa ini adalah bagaimana perusahaan AI membangun bisnis mereka yang sangat bernilai – dengan mengambil data dari web dan menggunakan data Anda untuk melatih chatbot mereka.

Web scraping bukan hal baru. Di masa lalu, website bisa mengandalkan protokol sederhana seperti robots.txt untuk menentukan apa yang boleh, dan tidak boleh, digunakan oleh web crawler. Pedoman tersebut dihormati oleh perusahaan yang melakukan scraping untuk, misalnya, membangun hasil untuk mesin pencari. Namun, perusahaan AI tidak mematuhi kontrak sosial ini dan mengabaikan instruksi tersebut.

Cloudflare, layanan jaringan global yang membantu beberapa website terbesar di dunia menyampaikan konten kepada pengguna, telah merancang rencana baru untuk mengatasi web scraper perusahaan AI. Dan ide itu sebagus dan secerdik yang positif.

Dalam pos blog baru, Cloudflare telah membagikan bagaimana sekarang “menangkap bot yang tidak patuh dalam labirin AI.” Pada dasarnya, bot yang tidak mengikuti aturan yang ditetapkan untuk mereka melalui protokol seperti robots.txt, sebuah file teks sederhana yang menetapkan apa yang web crawler diizinkan untuk lakukan di situs, akan diganggu untuk menyia-nyiakan waktu dan sumber daya perusahaan yang bertanggung jawab atas bot tersebut.

“Konten yang dihasilkan AI meledak…pada saat yang sama, kita juga melihat ledakan baru crawler yang digunakan oleh perusahaan AI untuk mengambil data untuk pelatihan model,” kata Cloudflare dalam posnya. “AI Crawlers menghasilkan lebih dari 50 miliar permintaan ke jaringan Cloudflare setiap hari, atau sedikit di bawah 1% dari semua permintaan web yang kami lihat.”

Cloudflare mengatakan sebelumnya hanya memblokir web crawler dan scraper AI. Namun, melakukannya memberi tahu pelaku di balik bot bahwa akses mereka telah ditolak, dan akibatnya mereka akan mengubah strategi untuk melanjutkan kampanye scraping mereka.

MEMBACA  Dampak Ekonomi dari Utang Pemerintah

Jadi, Cloudflare menciptakan ide untuk membangun perangkap madu: serangkaian halaman web palsu yang dibuat dengan konten yang dihasilkan AI.

Fakta bahwa Cloudflare menggunakan konten yang dihasilkan AI untuk melawan web scraper AI bukan hanya untuk kesenangan. Ketika AI melatih dari konten yang dihasilkan AI, itu sebenarnya merusak model AI itu sendiri. Industri bahkan memiliki istilah untuk itu: “model collapse.” Cloudflare pada dasarnya memastikan bahwa bot yang melanggar aturan dihukum karena melakukannya.

Pos Cloudflare membahas detail teknis membangun labirin AI. Tetapi, inti dari itu adalah bahwa Cloudflare merancang hal-hal dengan cara di mana pengunjung manusia seharusnya tidak pernah melihat halaman-halaman perangkap madu yang dihasilkan AI ini. Selain itu, manusia akan melihat “kegilaan yang dihasilkan AI” di halaman-halaman ini. Bot, bagaimanapun, akan jatuh ke lubang kelinci, menyia-nyiakan sumber daya komputasi saat mereka semakin dalam melalui berbagai halaman konten yang dihasilkan AI.

Pelanggan Cloudflare dapat memilih untuk menggunakan labirin AI sekarang untuk melindungi konten mereka dari web scraper.