Model Llama Meta telah menghafal Harry Potter and the Sorcerer’s Stone dengan sangat baik hingga mampu mereproduksi kutipan verbatim dari 42 persen isi buku tersebut, menurut sebuah studi terbaru.
Peneliti dari Stanford, Cornell, dan West Virginia University menganalisis puluhan buku dari dataset Books3, kumpulan buku bajakan yang digunakan untuk melatih model Llama Meta. Books3 juga menjadi pusat gugatan pelanggaran hak cipta terhadap Meta, Kadrey v. Meta Platforms, Inc. Penulis studi menyatakan temuan ini bisa berdampak besar bagi perusahaan AI yang menghadapi gugatan serupa.
Menurut penelitian, model Llama 3.1 "menghafal beberapa buku, seperti Harry Potter dan 1984, hampir seluruhnya." Secara spesifik, Llama 3.1 mampu mereproduksi kutipan verbatim dari 42 persen buku Harry Potter pertama setidaknya 50 persen dari waktu. Secara keseluruhan, model tersebut bisa mereproduksi kutipan dari 91 persen buku, meski tidak konsisten.
"Tingkat hafalan verbatim buku dari dataset Books3 lebih signifikan dari yang sebelumnya dideskripsikan," tulis penelitian. Namun, peneliti juga menemukan bahwa "hafalan sangat bervariasi antar model dan antar buku dalam satu model, serta berbeda di bagian-bagian tertentu suatu buku." Misalnya, Llama 3.1 hanya menghafal 0,13 persen isi Sandman Slim karya Richard Kadrey, salah satu penggugat utama dalam gugatan kelas terhadap Meta.
Jadi, meski beberapa temuan terkesan merugikan, ini belum tentu menjadi bukti kuat bagi penggugat dalam kasus pelanggaran hak cipta AI.
Mashable Light Speed
"Hasil ini memberi semua pihak dalam debat hak cipta AI sesuatu untuk dipegang," tulis jurnalis Timothy B. Lee di newsletternya. "Perbedaan hasil seperti ini bisa mempertanyakan apakah masuk akal menggabungkan J.K. Rowling, Richard Kadrey, dan ribuan penulis lain dalam satu gugatan massal. Ini bisa menguntungkan Meta, karena kebanyakan penulis tidak punya sumber daya untuk mengajukan gugatan individu."
Mengapa Llama bisa mereproduksi beberapa buku lebih baik? "Saya menduga ini karena Harry Potter jauh lebih terkenal. Banyak dikutip, dan pasti banyak kutipannya tersebar di situs web yang masuk ke data pelatihan," kata James Grimmelmann, profesor hukum digital di Cornell, yang dikutip dalam penelitian.
Grimmelmann menambahkan, hal ini juga menunjukkan bahwa "perusahaan AI bisa membuat pilihan yang meningkatkan atau mengurangi hafalan. Ini bukan fitur tak terhindarkan dari AI; mereka punya kendali atasnya."
Meta dan perusahaan AI lain berargumen bahwa penggunaan karya berhak cipta untuk melatih model dilindungi oleh fair use, doktrin hukum yang kompleks. Namun, tingkat hafalan bisa mempersulit argumen tersebut.
"Ya, saya pikir kemungkinan LLM menghafal lebih banyak dari yang diperkirakan mengubah analisis hak cipta," kata Robert Brauneis, profesor di George Washington University, via email ke Mashable. Ia menyimpulkan temuan studi ini bisa melemahkan argumen fair use Meta.
Kami telah meminta tanggapan Meta tentang temuan ini dan akan memperbarui artikel jika ada respons.
Pernyataan: Ziff Davis, perusahaan induk Mashable, pada April lalu menggugat OpenAI dengan tuduhan melanggar hak cipta Ziff Davis dalam melatih dan mengoperasikan sistem AI-nya.
Topik:
Kecerdasan Buatan
Meta