Induk dari TikTok meluncurkan web scraper yang mengonsumsi data online dunia 25 kali lebih cepat dari OpenAI.

\”

ByteDance tampaknya sangat ingin mengejar waktu yang hilang dalam hal mengumpulkan data yang diperlukan untuk melatih model AI generatifnya.

Perusahaan induk berbasis China dari aplikasi video TikTok merilis bot web crawler atau scraper mereka sendiri, yang diberi nama Bytespider, sekitar bulan April, menurut penelitian dari Kasada, perusahaan yang mengkhususkan diri dalam manajemen bot untuk perusahaan dengan data online. Keberadaan bot ini juga dikonfirmasi oleh Dark Visitors, yang memantau scraper bot.

Bot ByteDance telah dengan cepat menjadi salah satu scraper paling agresif di internet, menurut penelitian tersebut. Bot ini mengumpulkan data dengan tingkat yang jauh lebih tinggi daripada perusahaan besar lainnya, seperti (Google, Meta, Amazon, OpenAI, dan Anthropic, yang menggunakan bot scraper mereka sendiri untuk membantu membuat dan meningkatkan model bahasa besar atau multimodal mereka, yang dikenal sebagai LLMs atau LMMs.

Sam Crowther, CEO Kasada, mengatakan sejak Bytespider muncul, bot ini telah mengumpulkan data sekitar 25 kali lipat dari GPTbot, yang mengumpulkan data untuk platform ChatGPT OpenAI dan model-model yang mendasarinya, misalnya. Bytespider telah mengumpulkan data sebanyak 3.000 kali lipat dari ClaudeBot, dari Anthropic, yang mengoperasikan platform Claude.

Seiring berjalannya waktu, Bytespider menjadi lebih agresif, menurut Kasada. Data menunjukkan lonjakan besar dalam aktivitas pengumpulan data dari Bytespider selama enam minggu terakhir.

Perwakilan TikTok dan ByteDance tidak merespons email yang meminta komentar.

Pengumpulan data yang agresif oleh ByteDance dilakukan meskipun kemungkinan TikTok akan dilarang di Amerika Serikat dalam beberapa bulan mendatang. Presiden Joe Biden telah menandatangani undang-undang yang mengharuskan ByteDance untuk menjual TikTok, karena alasan keamanan nasional, atau menutupnya.

Bot Bytespider, sama seperti milik OpenAI dan Anthropic, tidak menghormati robots.txt, menunjukkan penelitian. Robots.txt adalah baris kode yang dapat dimasukkan oleh penerbit ke dalam sebuah situs web yang, meskipun tidak memiliki kekuatan hukum, seharusnya memberi sinyal kepada scraper bot bahwa mereka tidak boleh mengambil data dari situs web itu. 

MEMBACA  Dibutuhkan jalur kereta baru antara Midlands dan utara Inggris, kata studi

Web scraping sudah ada sejak puluhan tahun lalu, terutama oleh mesin pencari untuk mengumpulkan tautan ke halaman web. Namun, munculnya alat AI generatif telah menambah dimensi baru dan membuat praktik ini menjadi sumber utama tuntutan hukum dan kontroversi. Orang dan organisasi yang data kerjanya diambil dengan scraping berargumen bahwa hak cipta mereka dilanggar dalam proses tersebut. Semua model yang mendasari alat AI generatif dilatih dengan jumlah data online yang sangat besar, efektifnya semua yang tersedia di web, khususnya informasi tertulis. Perusahaan teknologi menggunakan bot scraper untuk essentially mengcopy semua itu secara gratis dan memasukkannya ke dalam dataset mereka.

“Sepertinya mereka berusaha keras untuk mengejar ketinggalan,” kata Crowther tentang pengumpulan data yang agresif yang dilakukan oleh Bytespider. Baru tahun lalu, dilaporkan bahwa ByteDance sangat tertinggal dalam perlombaan AI generatif sehingga mereka menggunakan OpenAI untuk membantu membangun LLM ByteDance sendiri, yang melanggar syarat penggunaan OpenAI. Awal tahun ini, ByteDance merilis LLM berbasis obrolan bernama Duabo, tetapi pekerjaan pada model tersebut kemungkinan telah selesai sebelum pengumpulan data pelatihan yang lebih baru dari Bytespider.

“Jelas” bahwa ByteDance sedang mengerjakan LLM baru, menurut seseorang yang akrab dengan perusahaan. Mengenai rencana ByteDance dengan LLM baru, seseorang yang akrab dengan ambisi perusahaan mengatakan salah satu tujuannya berkaitan dengan fungsi pencarian untuk TikTok.

Minggu lalu, TikTok merilis pembaruan untuk fungsi pencarian saat ini yang difokuskan pada kata kunci untuk iklan, yang pada dasarnya memungkinkan pengiklan mencari secara real time kata-kata yang sedang tren di TikTok. Ini memungkinkan pemasar untuk membuat iklan dengan kata kunci yang relevan yang seharusnya membantu iklan muncul di layar lebih banyak pengguna.

MEMBACA  Klaim Gugatan Mengatakan 'Buy Box' Amazon Diduga Membohongi Anda Hingga Membayar Lebih

Model AI baru dengan data tentang tren dan topik internet yang lebih baru dapat memperluas dan meningkatkan lingkungan pencarian TikTok lebih lanjut, menurut orang yang akrab dengan ambisi perusahaan. 

“Dengan audiens dan jumlah pengguna, TikTok dengan lingkungan pencarian yang merupakan ruang biddable sepenuhnya dengan kata kunci dan topik, itu akan menjadi sangat menarik bagi banyak orang yang menghabiskan banyak uang dengan Google saat ini,” kata orang tersebut.

Apakah Anda seorang karyawan TikTok atau ByteDance atau seseorang dengan wawasan atau tip untuk dibagikan? Hubungi Kali Hays dengan aman melalui Signal di +1-949-280-0267 atau di [email protected].

Newsletter yang direkomendasikan

Data Sheet: Tetapkan diri Anda di puncak bisnis teknologi dengan analisis yang berpikir cerdas tentang nama-nama terbesar dalam industri.

Daftar di sini.\”