Bagaimana Web Scraping Benar-Benar Bekerja – Dan Mengubah Semuanya dengan AI

Poin Kunci ZDNET
Oleh Getty/panithan pholpanichrassamee

Web scraping mendukung industri harga, SEO, keamanan, AI, dan riset. AI scraping mengancam kelangsungan situs dengan menghindari lalu lintas balik. Perusahaan melawan dengan lisensi, paywall, dan blokir crawler.


Dapatkan liputan teknologi lebih mendalam dari ZDNET:
Tambahkan kami sebagai sumber pilihan Google di browser Chrome dan Chromium.


Di dunia web scraping industri, ada beberapa pemain besar. Oh, Anda tidak tahu ada dunia seperti ini? Saya punya cerita untuk Anda.

Mari mulai dengan mendefinisikan web scraping. Web scraping adalah praktik mengekstrak data dari halaman web langsung yang dilihat publik saat mengunjungi situs.

Baca juga:
Sudah muak dengan AI yang meng-scraping konten Anda? Pemblokir bot sumber terbuka ini bisa membantu – begini caranya

Ini berbeda dari mengambil data melalui API (application programming interface) yang disediakan pemilik situs, atau dari basis data, atau informasi lain yang bisa diunduh. Web scraping mengekstrak data yang tidak secara resmi disediakan pemilik situs untuk analisis, dan dalam beberapa kasus, mereka bahkan tidak ingin data itu dianalisis oleh pihak luar.

Contoh Web Scraping

Bayangkan Anda penjual dengan 200 produk online. Produk Anda sensitif harga—jika pesaing menurunkan harga, Anda harus cepat merespons. Mempekerjakan staf untuk selalu memantau ratusan halaman web jelas tidak efisien. Anda butuh proses otomatis.

Baca juga:
Perplexity klaim tuduhan Cloudflare soal ‘penyadapan diam-diam’ AI didasari kesalahan memalukan

Misalnya, produk Anda dan pesaing dijual di Amazon atau Walmart. Kedua marketplace ini menyediakan data penjualan, tapi tidak membagikan data pesaing kepada Anda. Solusinya? Web scraping—proses otomatis mengunjungi halaman produk pesaing dan mengekstrak info harga dari struktur HTML. Data ini lalu dimasukkan ke basis data internal Anda untuk penyesuaian harga.

MEMBACA  Para Kandidat Presiden Meksiko Menandatangani Komitmen untuk Perdamaian dengan Pemimpin Gereja yang Khawatir akan Kekerasan

Pemindaian ini bisa dilakukan harian atau mingguan, menjaga harga tetap kompetitif.

Aplikasi Lain Web Scraping

Selain harga dinamis, perusahaan mungkin ingin memantau stok, produk baru, ulasan, atau tren pasar. Beberapa bisnis menyediakan data sebagai layanan, seperti data pasar properti atau lead penjualan.

Alat SEO atau peringkat kata kunci juga menggunakan data scraping. Penyedia layanan ini memindai situs (seperti Google) untuk menyajikan analisis SEO terkini.

Baca juga:
Cara menghilangkan AI Overviews di Google Search: 4 langkah mudah

Web scraping juga berguna untuk keamanan dan perlindungan properti intelektual. Misalnya, memindai situs e-commerce untuk penggunaan merek ilegal. Menurut Departemen Perdagangan AS, pemalsuan adalah "kegiatan kriminal terbesar di dunia," dengan nilai mencapai $1,7–4,5 triliun per tahun.

Dua Sisi Scraping: Pencarian vs. AI

Getty/Weiquan Lin

Web scraping bukan hal baru. Mesin pencari seperti Google mengandalkan scraping untuk mengindeks situs. Bedanya, mesin pencari mengirim lalu lintas balik ke situs asal, sementara AI—seperti parasit—menyerap informasi tanpa memberi manfaat.

AI mengambil konten (misal artikel ini) dan menampilkannya langsung, tanpa mengarahkan pembaca ke situs asli. Ini mengurangi trafik situs dan menghilangkan insentif pembuat konten.

Baca juga:
Bot AI mengincar data Anda? Alat gratis ini bisa mengacaukan mereka

Tantangan Web Scraping

Scraping skala besar butuh banyak permintaan akses halaman, yang sering diblokir server web. Solusinya, beberapa perusahaan menyediakan layanan scraping dengan memanfaatkan ribuan komputer sebagai proxy.

Beberapa menggunakan malware untuk mengontrol komputer tanpa izin, tapi ada juga yang legal dan etis—dengan membayar pemilik komputer sukarela.

Baca juga:
Bagaimana ChatGPT benar-benar bekerja (dan mengapa itu mengubah segalanya)

Arah Selanjutnya

Beberapa perusahaan seperti Reddit mulai menjual data ke AI melalui API alih-alih dibajak. Ini tidak mengembalikan trafik, tapi memberi pemasukan tambahan.

MEMBACA  Pencipta ICEBlock Terpukul Setelah Google dan Apple Hapus Aplikasinya Atas Tekanan Rezim Otoriter

Cloudflare, yang mengelola 20% lalu lintas internet, kini memblokir crawler AI secara default—kecuali dibayar.

Intinya, web scraping adalah soal uang: mengelak pembatasan, memblokir, atau membayar untuk akses data. Konten yang dibuat manusia terjebak di tengah.

Bagaimana pendapat Anda tentang web scraping oleh AI vs. mesin pencari? Apakah lisensi seperti Reddit adil, atau justru melegitimasi hilangnya trafik? Haruskah scraping diatur lebih ketat?


Ikuti update harian saya di media sosial: