Universitas Harvard mengumumkan Kamis bahwa mereka akan merilis dataset berkualitas tinggi dari hampir satu juta buku berdomain publik yang dapat digunakan oleh siapa pun untuk melatih model bahasa besar dan alat AI lainnya. Dataset ini dibuat oleh Inisiatif Data Institusi baru Harvard dengan pendanaan dari Microsoft dan OpenAI. Ini berisi buku-buku yang dipindai sebagai bagian dari proyek Google Books yang tidak lagi dilindungi oleh hak cipta.
Kira-kira lima kali ukuran dataset Books3 yang terkenal yang digunakan untuk melatih model AI seperti Llama Meta, database Inisiatif Data Institusi meliputi genre, dekade, dan bahasa, dengan karya-karya klasik seperti Shakespeare, Charles Dickens, dan Dante disertakan bersama dengan buku-buku matematika Ceko yang tidak dikenal dan kamus saku Wales. Greg Leppert, direktur eksekutif Inisiatif Data Institusi, mengatakan bahwa proyek ini adalah upaya untuk “membuat lapangan permainan seimbang” dengan memberikan akses kepada masyarakat umum, termasuk pemain kecil di industri AI dan peneliti individu, ke repositori konten yang sangat baik dan disusun dengan baik yang biasanya hanya dimiliki oleh raksasa teknologi yang mapan. “Ini telah melalui tinjauan yang ketat,” katanya.
Leppert percaya bahwa database domain publik baru ini bisa digunakan bersama dengan materi berlisensi lainnya untuk membangun model kecerdasan buatan. “Saya pikir tentang ini agak seperti cara Linux telah menjadi sistem operasi dasar untuk begitu banyak bagian dunia,” katanya, mencatat bahwa perusahaan masih perlu menggunakan data pelatihan tambahan untuk membedakan model mereka dari pesaing mereka.
Burton Davis, wakil presiden Microsoft dan wakil penasihat jenderal untuk kekayaan intelektual, menekankan bahwa dukungan perusahaan untuk proyek ini sejalan dengan keyakinan lebih luasnya tentang nilai menciptakan “kolam data yang dapat diakses” untuk digunakan oleh startup AI yang “dikelola untuk kepentingan publik”. Dengan kata lain, Microsoft tidak selalu berencana untuk menggantikan semua data pelatihan AI yang telah digunakan dalam modelnya dengan alternatif domain publik seperti buku-buku dalam database Harvard yang baru. “Kami menggunakan data yang tersedia secara publik untuk tujuan melatih model kami,” kata Davis.
Saat puluhan gugatan diajukan atas penggunaan data berhak cipta untuk melatih AI berjalan melalui pengadilan, masa depan bagaimana alat kecerdasan buatan dibangun bergantung pada keseimbangan. Jika perusahaan AI menang dalam kasus mereka, mereka akan bisa terus menjelajahi internet tanpa perlu masuk ke perjanjian lisensi dengan pemegang hak cipta. Tetapi jika mereka kalah, perusahaan AI bisa dipaksa untuk mengubah cara model mereka dibuat. Gelombang proyek seperti database Harvard terus maju dengan asumsi bahwa – tidak peduli apa yang terjadi – akan ada minat untuk dataset domain publik.
Selain dari banyak buku, Inisiatif Data Institusi juga bekerja sama dengan Perpustakaan Umum Boston untuk memindai jutaan artikel dari berbagai surat kabar yang sekarang berada di domain publik, dan mengatakan bahwa mereka terbuka untuk membentuk kolaborasi serupa di masa mendatang. Cara tepat dataset buku akan dirilis belum ditetapkan. Inisiatif Data Institusi telah meminta Google untuk bekerja sama dalam distribusi publik, tetapi raksasa pencarian itu belum menyetujui secara publik untuk menjadi tuan rumahnya, meskipun Harvard mengatakan mereka optimis itu akan. (Google tidak menanggapi permintaan komentar WIRED.)