Bagaimana Web Scraping Benar-Benar Bekerja – Dan Mengubah Semuanya dengan AI

Poin Kunci ZDNET
Oleh Getty/panithan pholpanichrassamee

Web scraping mendukung industri harga, SEO, keamanan, AI, dan riset. AI scraping mengancam kelangsungan situs dengan menghindari lalu lintas balik. Perusahaan melawan dengan lisensi, paywall, dan blokir crawler.

Dapatkan liputan teknologi lebih mendalam dari ZDNET:
Tambahkan kami sebagai sumber pilihan Google di browser Chrome dan Chromium.

Di dunia web scraping industri, ada beberapa pemain besar. Oh, Anda tidak tahu ada dunia seperti ini? Saya punya cerita untuk Anda.

Mari mulai dengan mendefinisikan web scraping. Web scraping adalah praktik mengekstrak data dari halaman web langsung yang dilihat publik saat mengunjungi situs.

Ini berbeda dari mengambil data melalui API (application programming interface) yang disediakan pemilik situs, atau dari basis data, atau informasi lain yang bisa diunduh. Web scraping mengekstrak data yang tidak secara resmi disediakan pemilik situs untuk analisis, dan dalam beberapa kasus, mereka bahkan tidak ingin data itu dianalisis oleh pihak luar.

Contoh Web Scraping

Bayangkan Anda penjual dengan 200 produk online. Produk Anda sensitif harga—jika pesaing menurunkan harga, Anda harus cepat merespons. Mempekerjakan staf untuk selalu memantau ratusan halaman web jelas tidak efisien. Anda butuh proses otomatis.

Misalnya, produk Anda dan pesaing dijual di Amazon atau Walmart. Kedua marketplace ini menyediakan data penjualan, tapi tidak membagikan data pesaing kepada Anda. Solusinya? Web scraping—proses otomatis mengunjungi halaman produk pesaing dan mengekstrak info harga dari struktur HTML. Data ini lalu dimasukkan ke basis data internal Anda untuk penyesuaian harga.

MEMBACA Salah Satu Pembangun Situs Terbaik dengan Harga Kurang dari $2.50/Bln

Pemindaian ini bisa dilakukan harian atau mingguan, menjaga harga tetap kompetitif.

Aplikasi Lain Web Scraping

Selain harga dinamis, perusahaan mungkin ingin memantau stok, produk baru, ulasan, atau tren pasar. Beberapa bisnis menyediakan data sebagai layanan, seperti data pasar properti atau lead penjualan.

Alat SEO atau peringkat kata kunci juga menggunakan data scraping. Penyedia layanan ini memindai situs (seperti Google) untuk menyajikan analisis SEO terkini.

Web scraping juga berguna untuk keamanan dan perlindungan properti intelektual. Misalnya, memindai situs e-commerce untuk penggunaan merek ilegal. Menurut Departemen Perdagangan AS, pemalsuan adalah "kegiatan kriminal terbesar di dunia," dengan nilai mencapai $1,7–4,5 triliun per tahun.

**Dua Sisi Scraping: Pencarian vs. AI**

Getty/Weiquan Lin

Web scraping bukan hal baru. Mesin pencari seperti Google mengandalkan scraping untuk mengindeks situs. Bedanya, mesin pencari mengirim lalu lintas balik ke situs asal, sementara AI—seperti parasit—menyerap informasi tanpa memberi manfaat.

AI mengambil konten (misal artikel ini) dan menampilkannya langsung, tanpa mengarahkan pembaca ke situs asli. Ini mengurangi trafik situs dan menghilangkan insentif pembuat konten.

Tantangan Web Scraping

Scraping skala besar butuh banyak permintaan akses halaman, yang sering diblokir server web. Solusinya, beberapa perusahaan menyediakan layanan scraping dengan memanfaatkan ribuan komputer sebagai proxy.

Beberapa menggunakan malware untuk mengontrol komputer tanpa izin, tapi ada juga yang legal dan etis—dengan membayar pemilik komputer sukarela.

Arah Selanjutnya

Beberapa perusahaan seperti Reddit mulai menjual data ke AI melalui API alih-alih dibajak. Ini tidak mengembalikan trafik, tapi memberi pemasukan tambahan.

MEMBACA Penawaran streaming Black Friday terbaik 2024: Diskon besar sedang berlangsung untuk hampir semua platform populer

Cloudflare, yang mengelola 20% lalu lintas internet, kini memblokir crawler AI secara default—kecuali dibayar.

Intinya, web scraping adalah soal uang: mengelak pembatasan, memblokir, atau membayar untuk akses data. Konten yang dibuat manusia terjebak di tengah.

Bagaimana pendapat Anda tentang web scraping oleh AI vs. mesin pencari? Apakah lisensi seperti Reddit adil, atau justru melegitimasi hilangnya trafik? Haruskah scraping diatur lebih ketat?

Ikuti update harian saya di media sosial: