Inilah Bukti Anda Bisa Melatih Model AI Tanpa Mengonsumsi Konten Berhak Cipta

Pada tahun 2023, OpenAI memberi tahu parlemen Inggris bahwa “mustahil” untuk melatih model AI terkemuka tanpa menggunakan bahan berhak cipta. Ini adalah sikap populer di dunia AI, di mana OpenAI dan pemain utama lainnya telah menggunakan bahan yang diambil secara online untuk melatih model yang menggerakkan chatbot dan generator gambar, memicu gelombang gugatan atas pelanggaran hak cipta.

Dua pengumuman pada hari Rabu memberikan bukti bahwa model bahasa besar sebenarnya dapat dilatih tanpa izin penggunaan bahan berhak cipta.

Sebuah kelompok peneliti yang didukung oleh pemerintah Prancis telah merilis apa yang diyakini sebagai kumpulan data pelatihan AI terbesar yang terdiri sepenuhnya dari teks yang berada di domain publik. Dan yayasan Fairly Trained mengumumkan bahwa mereka telah memberikan sertifikasi pertama untuk model bahasa besar yang dibangun tanpa pelanggaran hak cipta, menunjukkan bahwa teknologi seperti yang ada di balik ChatGPT dapat dibangun dengan cara yang berbeda dari norma kontroversial industri AI.

“Tidak ada alasan mendasar mengapa seseorang tidak dapat melatih LLM dengan adil,” kata Ed Newton-Rex, CEO Fairly Trained. Ia mendirikan yayasan nirlaba tersebut pada Januari 2024 setelah mengundurkan diri dari perannya sebagai eksekutif di startup generasi gambar Stability AI karena ia tidak setuju dengan kebijakannya yang mengambil konten tanpa izin.

Fairly Trained menawarkan sertifikasi kepada perusahaan yang bersedia membuktikan bahwa mereka telah melatih model AI mereka dengan data yang mereka miliki, telah dilisensikan, atau berada di domain publik. Ketika yayasan nirlaba tersebut diluncurkan, beberapa kritikus menyoroti bahwa mereka belum mengidentifikasi model bahasa besar yang memenuhi persyaratan tersebut.

Hari ini, Fairly Trained mengumumkan telah memberikan sertifikasi untuk model bahasa besar pertamanya. Model tersebut bernama KL3M dan dikembangkan oleh startup konsultan teknologi hukum berbasis Chicago, 273 Ventures, menggunakan kumpulan data pelatihan terkurasi dari dokumen-dokumen hukum, keuangan, dan regulasi.

MEMBACA Waktunya Tepat untuk iPhone Lipat

Rekan pendiri perusahaan, Jillian Bommarito, mengatakan keputusan untuk melatih KL3M dengan cara ini berasal dari klien perusahaan yang “berhati-hati” seperti firma hukum. “Mereka khawatir tentang provenans, dan mereka perlu tahu bahwa output tidak didasarkan pada data yang tercemar,” katanya. “Kami tidak bergantung pada penggunaan yang wajar.” Klien-klien tersebut tertarik untuk menggunakan AI generatif untuk tugas seperti merangkum dokumen hukum dan menyusun kontrak, tetapi tidak ingin terlibat dalam gugatan tentang kekayaan intelektual seperti yang dilakukan OpenAI, Stability AI, dan lainnya.

Bommarito mengatakan bahwa 273 Ventures sebelumnya tidak pernah bekerja pada model bahasa besar tetapi memutuskan untuk melatih satu sebagai eksperimen. “Uji coba kami untuk melihat apakah itu bahkan mungkin,” katanya. Perusahaan tersebut telah membuat kumpulan data pelatihan sendiri, DataPack Hukum Kelvin, yang mencakup ribuan dokumen hukum yang ditinjau untuk mematuhi hukum hak cipta.

Meskipun kumpulan data tersebut kecil (sekitar 350 miliar token, atau unit data) dibandingkan dengan yang dikompilasi oleh OpenAI dan lainnya yang telah mengambil data dari internet secara massal, Bommarito mengatakan model KL3M berperforma jauh lebih baik dari yang diharapkan, hal ini ia atributkan kepada seberapa hati-hati data telah disaring sebelumnya. “Memiliki data yang bersih dan berkualitas tinggi mungkin berarti Anda tidak perlu membuat model begitu besar,” katanya. Memilih dataset dapat membantu membuat model AI yang selesai disesuaikan dengan tugas yang dirancang untuknya. 273 Ventures sekarang menawarkan tempat di daftar tunggu kepada klien yang ingin membeli akses ke data ini.

Perusahaan yang ingin meniru KL3M mungkin akan lebih banyak bantuan di masa depan dalam bentuk kumpulan data tanpa pelanggaran yang tersedia secara gratis. Pada hari Rabu, peneliti merilis apa yang mereka klaim sebagai kumpulan data AI terbesar yang tersedia untuk model bahasa yang terdiri sepenuhnya dari konten domain publik. Common Corpus, seperti yang disebut, adalah koleksi teks sekitar ukuran yang sama dengan data yang digunakan untuk melatih model generasi teks GPT-3 OpenAI dan telah diposting ke platform AI sumber terbuka Hugging Face.

MEMBACA Eksekutif Coinbase, Jesse Pollak, Mengupas Token Base Mendatang—dan Alasan Kita Bisa Mempercayai Blockchain Korporat

Kumpulan data ini dibangun dari sumber seperti surat kabar domain publik yang didigitalkan oleh Perpustakaan Kongres AS dan Perpustakaan Nasional Prancis. Pierre-Carl Langlais, koordinator proyek Common Corpus, menyebutnya sebagai “korpus yang cukup besar untuk melatih LLM terkini.” Dalam bahasa besar AI, kumpulan data ini berisi 500 juta token, model paling canggih yang dimiliki OpenAI diyakini telah dilatih menggunakan beberapa triliun token.