Poin Kunci ZDNET
Oleh Getty/panithan pholpanichrassamee
Web scraping mendukung industri harga, SEO, keamanan, AI, dan riset. AI scraping mengancam kelangsungan situs dengan menghindari lalu lintas balik. Perusahaan melawan dengan lisensi, paywall, dan blokir crawler.
Dapatkan liputan teknologi lebih mendalam dari ZDNET:
Tambahkan kami sebagai sumber pilihan Google di browser Chrome dan Chromium.
Di dunia web scraping industri, ada beberapa pemain besar. Oh, Anda tidak tahu ada dunia seperti ini? Saya punya cerita untuk Anda.
Mari mulai dengan mendefinisikan web scraping. Web scraping adalah praktik mengekstrak data dari halaman web langsung yang dilihat publik saat mengunjungi situs.
Ini berbeda dari mengambil data melalui API (application programming interface) yang disediakan pemilik situs, atau dari basis data, atau informasi lain yang bisa diunduh. Web scraping mengekstrak data yang tidak secara resmi disediakan pemilik situs untuk analisis, dan dalam beberapa kasus, mereka bahkan tidak ingin data itu dianalisis oleh pihak luar.
Contoh Web Scraping
Bayangkan Anda penjual dengan 200 produk online. Produk Anda sensitif harga—jika pesaing menurunkan harga, Anda harus cepat merespons. Mempekerjakan staf untuk selalu memantau ratusan halaman web jelas tidak efisien. Anda butuh proses otomatis.
Baca juga:
Perplexity klaim tuduhan Cloudflare soal ‘penyadapan diam-diam’ AI didasari kesalahan memalukan
Misalnya, produk Anda dan pesaing dijual di Amazon atau Walmart. Kedua marketplace ini menyediakan data penjualan, tapi tidak membagikan data pesaing kepada Anda. Solusinya? Web scraping—proses otomatis mengunjungi halaman produk pesaing dan mengekstrak info harga dari struktur HTML. Data ini lalu dimasukkan ke basis data internal Anda untuk penyesuaian harga.
Pemindaian ini bisa dilakukan harian atau mingguan, menjaga harga tetap kompetitif.
Aplikasi Lain Web Scraping
Selain harga dinamis, perusahaan mungkin ingin memantau stok, produk baru, ulasan, atau tren pasar. Beberapa bisnis menyediakan data sebagai layanan, seperti data pasar properti atau lead penjualan.
Alat SEO atau peringkat kata kunci juga menggunakan data scraping. Penyedia layanan ini memindai situs (seperti Google) untuk menyajikan analisis SEO terkini.
Baca juga:
Cara menghilangkan AI Overviews di Google Search: 4 langkah mudah
Web scraping juga berguna untuk keamanan dan perlindungan properti intelektual. Misalnya, memindai situs e-commerce untuk penggunaan merek ilegal. Menurut Departemen Perdagangan AS, pemalsuan adalah "kegiatan kriminal terbesar di dunia," dengan nilai mencapai $1,7–4,5 triliun per tahun.
Dua Sisi Scraping: Pencarian vs. AI
Getty/Weiquan Lin
Web scraping bukan hal baru. Mesin pencari seperti Google mengandalkan scraping untuk mengindeks situs. Bedanya, mesin pencari mengirim lalu lintas balik ke situs asal, sementara AI—seperti parasit—menyerap informasi tanpa memberi manfaat.
AI mengambil konten (misal artikel ini) dan menampilkannya langsung, tanpa mengarahkan pembaca ke situs asli. Ini mengurangi trafik situs dan menghilangkan insentif pembuat konten.
Baca juga:
Bot AI mengincar data Anda? Alat gratis ini bisa mengacaukan mereka
Tantangan Web Scraping
Scraping skala besar butuh banyak permintaan akses halaman, yang sering diblokir server web. Solusinya, beberapa perusahaan menyediakan layanan scraping dengan memanfaatkan ribuan komputer sebagai proxy.
Beberapa menggunakan malware untuk mengontrol komputer tanpa izin, tapi ada juga yang legal dan etis—dengan membayar pemilik komputer sukarela.
Baca juga:
Bagaimana ChatGPT benar-benar bekerja (dan mengapa itu mengubah segalanya)
Arah Selanjutnya
Beberapa perusahaan seperti Reddit mulai menjual data ke AI melalui API alih-alih dibajak. Ini tidak mengembalikan trafik, tapi memberi pemasukan tambahan.
Cloudflare, yang mengelola 20% lalu lintas internet, kini memblokir crawler AI secara default—kecuali dibayar.
Intinya, web scraping adalah soal uang: mengelak pembatasan, memblokir, atau membayar untuk akses data. Konten yang dibuat manusia terjebak di tengah.
Bagaimana pendapat Anda tentang web scraping oleh AI vs. mesin pencari? Apakah lisensi seperti Reddit adil, atau justru melegitimasi hilangnya trafik? Haruskah scraping diatur lebih ketat?
Ikuti update harian saya di media sosial:
- Newsletter mingguan
- Twitter/X: @DavidGewirtz
- Facebook: Facebook.com/DavidGewirtz
- Instagram: Instagram.com/DavidGewirtz
- YouTube: YouTube.com/DavidGewirtzTV