Di dalam perlombaan Meta untuk mengalahkan OpenAI: “Kita perlu belajar bagaimana membangun perbatasan dan memenangkan perlombaan ini”

Sebuah gugatan hak cipta besar terhadap Meta telah mengungkap sejumlah komunikasi internal tentang rencana perusahaan untuk mengembangkan model AI open-source-nya, Llama, yang mencakup diskusi tentang menghindari “liputan media yang menunjukkan bahwa kita telah menggunakan dataset yang kita tahu adalah bajakan.” Pesan-pesan itu, yang merupakan bagian dari serangkaian pameran yang diungkap oleh pengadilan California, menunjukkan Meta menggunakan data berhak cipta saat melatih sistem AI-nya dan berusaha menyembunyikannya — saat berlomba untuk mengalahkan pesaing seperti OpenAI dan Mistral. Bagian dari pesan tersebut pertama kali diungkap minggu lalu. Pada email Oktober 2023 kepada peneliti AI Meta Hugo Touvron, Ahmad Al-Dahle, wakil presiden generative AI Meta, menulis bahwa tujuan perusahaan “harus menjadi GPT4,” merujuk pada model bahasa besar yang diumumkan oleh OpenAI pada Maret 2023. Meta harus “belajar bagaimana membangun frontier dan memenangkan perlombaan ini,” tambah Al-Dahle. Rencana-rencana itu tampaknya melibatkan situs pembajakan buku Library Genesis (LibGen) untuk melatih sistem AI-nya. Sebuah email tanpa tanggal dari direktur produk Meta Sony Theakanath, yang dikirim ke VP penelitian AI Joelle Pineau, mempertimbangkan apakah akan menggunakan LibGen secara internal saja, untuk benchmark yang disertakan dalam pos blog, atau untuk membuat model yang dilatih di situs itu. Dalam email tersebut, Theakanath menulis bahwa “GenAI telah disetujui untuk menggunakan LibGen untuk Llama3… dengan sejumlah mitigasi yang disepakati” setelah mengeskalkannya ke “MZ” — diduga CEO Meta Mark Zuckerberg. Seperti yang dicatat dalam email tersebut, Theakanath percaya bahwa “Libgen penting untuk memenuhi angka SOTA [state-of-the-art],” menambahkan “diketahui bahwa OpenAI dan Mistral menggunakan perpustakaan untuk model mereka (melalui mulut ke mulut).” Mistral dan OpenAI belum menyatakan apakah mereka menggunakan LibGen. (The Verge menghubungi keduanya untuk informasi lebih lanjut). Theakanath dari Meta menulis bahwa LibGen “penting” untuk mencapai “angka SOTA di semua kategori.” Dokumen pengadilan berasal dari gugatan class action yang diajukan oleh penulis Richard Kadrey, komedian Sarah Silverman, dan lainnya terhadap Meta, menuduhnya menggunakan konten berhak cipta yang diperoleh secara ilegal untuk melatih model AI-nya melanggar hukum kekayaan intelektual. Meta, seperti perusahaan AI lainnya, telah berargumen bahwa menggunakan materi berhak cipta dalam data pelatihan seharusnya merupakan penggunaan wajar yang legal. The Verge menghubungi Meta untuk permintaan komentar namun tidak segera mendengar balik. Beberapa “mitigasi” untuk menggunakan LibGen termasuk stipulasi bahwa Meta harus “menghapus data yang jelas ditandai sebagai bajakan/dirampas,” sambil menghindari mengutip secara eksternal “penggunaan data pelatihan apa pun” dari situs itu. Email Theakanath juga mengatakan perusahaan harus “tim merah” model-model perusahaan “untuk risiko senjata biologi dan CBRNE [Kimia, Biologi, Radiologi, Nuklir, dan Bahan Peledak].” Email tersebut juga membahas beberapa dari “risiko kebijakan” yang ditimbulkan oleh penggunaan LibGen, termasuk bagaimana regulator mungkin menanggapi liputan media yang menunjukkan penggunaan konten bajakan Meta. “Hal ini mungkin melemahkan posisi negosiasi kami dengan regulator mengenai isu-isu ini,” kata email tersebut. Percakapan April 2023 antara peneliti Meta Nikolay Bashlykov dan anggota tim AI David Esiobu juga menunjukkan Bashlykov mengakui dia “tidak yakin apakah kita bisa menggunakan IP Meta untuk memuat melalui torrent [dari] konten bajakan.” Dokumen internal lainnya menunjukkan langkah-langkah yang diambil Meta untuk menyamarkan informasi hak cipta dalam data pelatihan LibGen. Dokumen berjudul “observasi tentang LibGen-SciMag” menunjukkan komentar yang ditinggalkan oleh karyawan tentang cara meningkatkan dataset tersebut. Salah satu saran adalah “menghapus lebih banyak header hak cipta dan pengidentifikasi dokumen,” yang mencakup setiap baris yang berisi “ISBN,” “Hak Cipta,” “Semua hak dilindungi,” atau simbol hak cipta. Catatan lain menyebutkan menghapus lebih banyak metadata “untuk menghindari komplikasi hukum potensial,” serta mempertimbangkan apakah akan menghapus daftar penulis sebuah makalah “untuk mengurangi kewajiban.” Dokumen tersebut membahas menghapus “header hak cipta dan pengidentifikasi dokumen.” Screenshot: The Verge Pada bulan Juni lalu, The New York Times melaporkan tentang perlombaan panik di dalam Meta setelah debut ChatGPT, mengungkap perusahaan telah mencapai titik tertinggi: hampir semua buku, artikel, dan puisi berbahasa Inggris yang tersedia online telah dihabiskan. Putus asa untuk mendapatkan lebih banyak data, eksekutif dikabarkan membahas kemungkinan membeli Simon & Schuster secara langsung dan mempertimbangkan untuk menyewa kontraktor di Afrika untuk merangkum buku tanpa izin. Dalam laporan tersebut, beberapa eksekutif membenarkan pendekatan mereka dengan menunjuk pada “prestasi pasar” OpenAI dalam menggunakan karya berhak cipta, sementara yang lain berargumen bahwa kemenangan pengadilan Google tahun 2015 yang menetapkan haknya untuk memindai buku bisa memberikan perlindungan hukum. “Satu-satunya hal yang menghambat kita dari menjadi sebaik ChatGPT adalah data volume secara harfiah,” kata seorang eksekutif dalam pertemuan, menurut The New York Times. Dilaporkan bahwa lab frontier seperti OpenAI dan Anthropic telah mencapai dinding data, yang berarti mereka tidak memiliki data baru yang cukup untuk melatih model bahasa besar mereka. Banyak pemimpin telah menyangkal hal ini, CEO OpenAI Sam Altman mengatakan dengan jelas: “Tidak ada dinding.” Pendiri OpenAI Ilya Sutskever, yang meninggalkan perusahaan tersebut bulan Mei lalu untuk memulai lab frontier baru, telah lebih terbuka tentang potensi dinding data. Pada sebuah konferensi AI premier bulan lalu, Sutskever mengatakan: “Kami telah mencapai puncak data dan tidak akan ada lagi. Kami harus berurusan dengan data yang kita miliki. Hanya ada satu internet.” Kelangkaan data ini telah mengarah pada beragam cara aneh untuk mendapatkan data unik. Bloomberg melaporkan bahwa lab frontier seperti OpenAI dan Google telah membayar pencipta konten digital antara $1 dan $4 per menit untuk rekaman video mereka yang tidak digunakan melalui pihak ketiga untuk melatih LLMs (kedua perusahaan tersebut memiliki produk generasi video AI yang bersaing). Dengan perusahaan seperti Meta dan OpenAI berharap untuk mengembangkan sistem AI mereka secepat mungkin, hal-hal pasti akan menjadi sedikit berantakan. Meskipun seorang hakim sebagian membatalkan gugatan class action Kadrey dan Silverman tahun lalu, bukti yang diuraikan di sini bisa memperkuat bagian dari kasus mereka saat masuk ke pengadilan.

MEMBACA  Misteri Karakter Acolyte Mendapatkan Figur Star Wars yang Mereka Layak Dapatkan

Tinggalkan komentar