Amazon Sedang Menyelidiki Kebingungan atas Tuduhan Penyalahgunaan Scraping

Divisi awan Amazon telah memulai investigasi terhadap Perplexity AI. Masalahnya adalah apakah startup pencarian AI tersebut melanggar aturan Amazon Web Services dengan melakukan scraping situs web yang mencoba mencegahnya melakukannya, WIRED telah mengetahui hal ini.

Seorang juru bicara AWS, yang berbicara kepada WIRED dengan syarat bahwa mereka tidak akan disebutkan namanya, mengkonfirmasi investigasi perusahaan terhadap Perplexity. WIRED sebelumnya menemukan bahwa startup ini – yang didukung oleh dana keluarga Jeff Bezos, Nvidia, dan baru-baru ini dinilai sebesar $3 miliar – tampaknya bergantung pada konten dari situs web yang di-scrape yang telah melarang akses melalui Protokol Pengesampingan Robots, standar web umum. Meskipun Protokol Pengesampingan Robots tidak mengikat secara hukum, ketentuan layanan umumnya memang demikian.

Protokol Pengesampingan Robots adalah standar web bertahun-tahun yang melibatkan penempatan file teks biasa (seperti wired.com/robots.txt) di sebuah domain untuk menunjukkan halaman mana yang tidak boleh diakses oleh bot dan pengeluyur otomatis. Meskipun perusahaan yang menggunakan scraper dapat memilih untuk mengabaikan protokol ini, kebanyakan telah secara tradisional menghormatinya. Juru bicara Amazon memberitahu WIRED bahwa pelanggan AWS harus mematuhi standar robots.txt saat meng-crawl situs web.

“Ketentuan layanan AWS melarang pelanggan menggunakan layanan kami untuk kegiatan ilegal, dan pelanggan kami bertanggung jawab untuk mematuhi ketentuan kami dan semua hukum yang berlaku,” kata juru bicara tersebut dalam sebuah pernyataan.

Pemeriksaan praktik Perplexity mengikuti laporan Forbes pada 11 Juni yang menuduh startup tersebut mencuri setidaknya satu artikelnya. Investigasi WIRED mengkonfirmasi praktik tersebut dan menemukan bukti lebih lanjut tentang penggunaan scraper dan plagiarisme oleh sistem yang terkait dengan chatbot pencarian AI Perplexity. Insinyur untuk Condé Nast, perusahaan induk WIRED, memblokir crawler Perplexity di semua situs webnya menggunakan file robots.txt. Tetapi WIRED menemukan perusahaan ini memiliki akses ke server menggunakan alamat IP yang tidak dipublikasikan – 44.221.181.252 – yang mengunjungi properti Condé Nast setidaknya ratusan kali dalam tiga bulan terakhir, tampaknya untuk meng-scrape situs web Condé Nast.

MEMBACA Petunjuk dan Jawaban NYT Connections Edisi Olahraga 2 Februari: Cara Menyelesaikan Teka-Teki #498

Mesin yang terkait dengan Perplexity tampaknya terlibat dalam crawling yang luas dari situs berita yang melarang bot mengakses kontennya. Juru bicara untuk Guardian, Forbes, dan The New York Times juga mengatakan bahwa mereka mendeteksi alamat IP tersebut di server mereka beberapa kali.

WIRED melacak alamat IP ke mesin virtual yang dikenal sebagai instance Elastic Compute Cloud (EC2) yang dihosting di AWS, yang memulai investigasinya setelah kami bertanya apakah menggunakan infrastruktur AWS untuk meng-scrape situs web yang melarang itu melanggar ketentuan layanan perusahaan.

Minggu lalu, CEO Perplexity Aravind Srinivas merespons investigasi WIRED dengan mengatakan pertanyaan yang kami ajukan kepada perusahaan “mencerminkan pemahaman yang dalam dan mendasar tentang bagaimana Perplexity dan Internet bekerja.” Srinivas kemudian memberitahu Fast Company bahwa alamat IP rahasia yang WIRED amati saat meng-scrape situs web Condé Nast dan situs uji yang kami buat dioperasikan oleh perusahaan pihak ketiga yang melakukan layanan peng-crawling dan peng-indeksan web. Dia menolak untuk menyebut nama perusahaan tersebut dengan alasan perjanjian kerahasiaan. Ketika ditanya apakah dia akan memberitahu pihak ketiga untuk berhenti meng-crawl WIRED, Srinivas menjawab “itu rumit.”