Apple, Nvidia, dan Anthropic Menggunakan Ribuan Video YouTube yang Dicuri untuk Melatih Kecerdasan Buatan (AI)

Dalam menjawab tuntutan, para terdakwa seperti Meta, OpenAI, dan Bloomberg telah berpendapat bahwa tindakan mereka merupakan penggunaan wajar. Sebuah kasus terhadap EleutherAI, yang awalnya mengambil buku-buku tersebut dan membuatnya menjadi publik, telah secara sukarela ditarik oleh para penggugat.

Litigasi dalam kasus-kasus yang tersisa masih dalam tahap awal, meninggalkan pertanyaan seputar izin dan pembayaran belum terselesaikan. The Pile sejak itu dihapus dari situs unduhan resminya, tetapi masih tersedia di layanan berbagi file.

“Perusahaan teknologi telah berjalan tanpa henti,” kata Amy Keller, seorang pengacara perlindungan konsumen dan mitra di firma DiCello Levitt yang telah mengajukan gugatan atas nama kreasi yang katanya diambil oleh perusahaan AI tanpa izin mereka.

“Orang-orang khawatir tentang kenyataan bahwa mereka tidak memiliki pilihan dalam hal ini,” kata Keller. “Saya pikir itulah yang benar-benar bermasalah.”

Banyak pencipta merasa tidak yakin tentang jalur yang akan diambil ke depan.

YouTuber penuh waktu berpatroli untuk penggunaan tidak sah dari karya-karya mereka, secara teratur mengajukan pemberitahuan takedown, dan beberapa khawatir hanya masalah waktu sebelum AI dapat menghasilkan konten mirip dengan apa yang mereka buat – jika bukan menghasilkan tiruan.

Pakman, pencipta The David Pakman Show, melihat kekuatan AI baru-baru ini saat melihat TikTok. Dia menemukan video yang diberi label sebagai klip Tucker Carlson, tapi ketika Pakman menontonnya, dia terkejut. Itu terdengar seperti Carlson tetapi, kata demi kata, apa yang dikatakan Pakman di acara YouTube-nya, sampai ke kadensinya. Dia juga terkejut bahwa hanya salah satu komentator video yang tampak mengenali bahwa itu palsu – klon suara Carlson membaca skrip Pakman.

“Ini akan menjadi masalah,” kata Pakman dalam video YouTube yang dia buat tentang palsu itu. “Anda bisa melakukan ini pada dasarnya dengan siapa saja.”

MEMBACA Klip Pertama Transformers Sangat Cantik dan Sangat Lucu

Cofounder EleutherAI Sid Black menulis di GitHub bahwa dia membuat Subjudul YouTube dengan menggunakan skrip. Skrip itu mengunduh teks terjemahan dari API YouTube dengan cara yang sama seperti browser penonton YouTube mengunduhnya saat menonton video. Menurut dokumentasi di GitHub, Black menggunakan 495 istilah pencarian untuk merangkum video, termasuk “vlogger lucu,” “Einstein,” “protestan hitam,” “Layanan Sosial Protektif,” “infowars,” “kromodinamika kuantum,” “Ben Shapiro,” “Uighur,” “buah-buahan,” “resep kue,” “garis Nazca,” dan “bumi datar.”

Meskipun syarat penggunaan YouTube melarang akses ke video-video mereka dengan “cara otomatis,” lebih dari 2.000 pengguna GitHub telah menandai atau memberikan dukungan terhadap kode tersebut.

“Ada banyak cara di mana YouTube bisa mencegah modul ini berfungsi jika itu yang mereka inginkan,” tulis insinyur pembelajaran mesin Jonas Depoix dalam diskusi di GitHub, di mana ia memublikasikan kode yang digunakan Black untuk mengakses teks terjemahan YouTube. “Ini belum terjadi sejauh ini.”

Dalam sebuah email ke Proof News, Depoix mengatakan bahwa dia tidak menggunakan kode tersebut sejak ia menulisnya sebagai mahasiswa universitas untuk sebuah proyek beberapa tahun yang lalu dan terkejut orang menemukannya berguna. Dia menolak untuk menjawab pertanyaan tentang aturan YouTube.

Juru bicara Google Jack Malon mengatakan dalam balasan email atas permintaan komentar bahwa perusahaan telah mengambil “tindakan selama bertahun-tahun untuk mencegah pengambilan data yang disalahgunakan, tidak sah.” Dia tidak menanggapi pertanyaan tentang penggunaan materi oleh perusahaan lain sebagai data pelatihan.

Di antara video yang digunakan oleh perusahaan AI adalah 146 dari Einstein Parrot, sebuah saluran dengan hampir 150.000 pelanggan. Penjaga burung abu-abu Afrika itu, Marcia, yang tidak ingin menggunakan nama belakangnya karena khawatir akan membahayakan keselamatan burung terkenal itu, mengatakan bahwa awalnya dia pikir lucu mengetahui model AI telah menyerap kata-kata burung yang meniru.

MEMBACA Ayah di Idaho Ingin Gunakan Warisan $200 ribu untuk Beli Harley, Ini Kekhawatiran Dave Ramsey

“Siapa yang ingin menggunakan suara burung?” kata Marcia. “Tapi kemudian, saya tahu bahwa dia berbicara dengan sangat baik. Dia berbicara dengan suara saya. Jadi dia meniru saya, dan kemudian AI meniru burung itu.”

Sekali dimasukkan oleh AI, data tidak dapat dilupakan. Marcia terganggu oleh semua cara yang tidak diketahuinya di mana informasi burungnya bisa digunakan, termasuk membuat burung tiruan digital dan, dia khawatir, membuatnya mengutuk.

“Kita sedang melangkah di wilayah yang belum dipetakan,” kata Marcia.