OpenAI dan Microsoft Bermitra dengan Perpustakaan Harvard untuk Melatih Model AI Menggunakan Buku Berusia 600 Tahun

Semua yang pernah diucapkan di internet hanyalah permulaan untuk mengajarkan kecerdasan buatan tentang manusia. Sekarang, perusahaan teknologi mengambil sumber pengetahuan yang lebih tua: buku-buku di perpustakaan.

Hampir satu juta buku yang diterbitkan sejak abad ke-15—dalam 254 bahasa—menjadi bagian koleksi Universitas Harvard yang dirilis untuk peneliti AI hari Kamis. Nantinya juga akan ada arsip koran lama dan dokumen pemerintah dari perpustakaan umum Boston.

Membuka akses ke buku-buku kuno bisa menjadi sumber data besar untuk perusahaan teknologi yang sedang menghadapi tuntutan hukum dari novelis, seniman visual, dan lainnya yang karyanya digunakan tanpa izin untuk melatih AI.

“Ini keputusan bijak mulai dengan data domain publik karena kurang kontroversial dibanding konten masih berhak cipta,” kata Burton Davis, wakil penasihat hukum di Microsoft.

Davis bilang perpustakaan juga menyimpan banyak data budaya, sejarah, dan bahasa yang tidak ada di internet beberapa dekade terakhir, tempat AI biasanya belajar. Kekhawatiran kehabisan data juga membuat pengembang AI menggunakan data “sintetis” dari chatbot sendiri yang kualitasnya lebih rendah.

Didukung donasi dari Microsoft dan pembuat ChatGPT OpenAI, Inisiatif Data Institusional berbasis di Harvard bekerja dengan perpustakaan dan museum di seluruh dunia untuk menyiapkan koleksi sejarah mereka buat AI, sekaligus memberi manfaat bagi komunitas.

“Kami ingin memindahkan sedikit kekuatan dari momen AI ini kembali ke institusi-institusi,” kata Aristana Scourtas dari Perpustakaan Harvard. “Pustakawan selalu penjaga data dan informasi.”

Koleksi baru Harvard, Institutional Books 1.0, berisi lebih dari 394 juta halaman buku yang dipindai. Salah satu karya tertua dari tahun 1400-an—pemikiran tangan seorang pelukis Korea tentang merawat bunga dan pohon. Kebanyakan buku dari abad ke-19 tentang sastra, filsafat, hukum, dan pertanian, semua dirawat dengan baik oleh generasi pustakawan.

MEMBACA  Kunjungan Cristiano Ronaldo ke Gedung Putih Bertepatan dengan Kedatangan Putra Mahkota Arab Saudi

Ini bisa sangat membantu pengembang AI untuk meningkatkan keakuratan sistem mereka.

“Banyak data untuk pelatihan AI tidak berasal dari sumber asli,” kata Greg Leppert, direktur inisiatif data Harvard. Koleksi ini langsung dari salinan fisik yang dipindai oleh institusi pemiliknya.

Sebelum ChatGPT populer, peneliti AI tidak terlalu memikirkan asal teks yang mereka ambil dari Wikipedia, media sosial seperti Reddit, atau buku bajakan. Mereka hanya butuh banyak “token”—unit data yang bisa mewakili sebagian kata.

Koleksi pelatihan AI Harvard punya sekitar 242 miliar token, jumlah yang sulit dibayangkan tapi masih kecil dibanding sistem AI paling canggih. Misalnya, perusahaan induk Facebook Meta bilang model bahasa terbarunya dilatih dengan lebih dari 30 triliun token dari teks, gambar, dan video.

Meta juga sedang berurusan dengan tuntutan dari komedian Sarah Silverman dan penulis lain yang menuduh perusahaan mencuri buku mereka dari “perpustakaan bayangan” berisi karya bajakan.

Sekarang, dengan beberapa keraguan, perpustakaan asli mulai bangkit.

OpenAI, yang juga menghadapi tuntutan hak cipta, menyumbang $50 juta tahun ini untuk beberapa institusi penelitian termasuk Perpustakaan Bodleian Oxford yang berusia 400 tahun, yang sedang mendigitalkan teks langka dan menggunakan AI untuk membantu transkripsi.

Ketika OpenAI pertama kali menghubungi Perpustakaan Umum Boston—salah satu terbesar di AS—perpustakaan menegaskan bahwa informasi yang didigitalkan harus untuk semua orang, kata Jessica Chapel, kepala layanan digital.

“OpenAI butuh data pelatihan dalam jumlah besar. Kami butuh objek digital dalam jumlah besar. Jadi ini sepertinya cocok,” kata Chapel.

Digitalisasi mahal. Misalnya, perpustakaan Boston kesulitan memindai dan mengkurasi puluhan koran berbahasa Prancis di New England yang banyak dibaca imigran Kanada dari Quebec akhir abad ke-19 dan awal ke-20. Sekarang teks seperti itu berguna sebagai data pelatihan, dan bisa membantu mendanai proyek yang memang ingin dilakukan pustakawan.

MEMBACA  Konverter PDF terbaik: Diskon 75% untuk PDF Converter Pro

Koleksi Harvard sudah didigitalkan sejak 2006 untuk raksasa teknologi lain, Google, dalam proyek kontroversial mereka membuat perpustakaan online lebih dari 20 juta buku yang bisa dicari.

Google bertahun-tahun menghadapi tantangan hukum dari penulis karena proyek perpustakaan online mereka, yang mencakup banyak karya baru dan berhak cipta. Kasus ini selesai tahun 2016 ketika Mahkamah Agung AS membiarkan keputusan pengadilan rendah yang menolak klaim pelanggaran hak cipta.

Sekarang, untuk pertama kalinya, Google bekerja sama dengan Harvard mengambil buku domain publik dari Google Books dan mempersiapkannya untuk pengembang AI. Hak cipta di AS biasanya berlaku 95 tahun, lebih lama untuk rekaman suara.

Upaya baru ini diapresiasi Kamis oleh kelompok penulis yang pernah menuntut Google dan sekarang menggugat perusahaan AI.

“Banyak judul ini hanya ada di rak perpustakaan besar, dan dataset ini akan memperluas akses ke pengetahuan di dalamnya,” kata Mary Rasenberger, CEO Authors Guild, dalam pernyataan Kamis. “Pentingnya, pembuatan dataset pelatihan legal yang besar akan mendemokratisasi pembuatan model AI baru.”

Seberapa berguna semua ini untuk generasi AI berikutnya masih harus dilihat saat data dibagikan Kamis di platform Hugging Face, yang menyimpan dataset dan model AI sumber terbuka yang bisa diunduh siapa saja.

Koleksi buku ini lebih beragam bahasa dibanding sumber data AI biasa. Kurang dari setengah bukunya dalam bahasa Inggris, meski bahasa Eropa masih mendominasi, terutama Jerman, Prancis, Italia, Spanyol, dan Latin.

Koleksi buku abad ke-19 juga bisa “sangat kritis” untuk upaya industri teknologi membangun agen AI yang bisa merencanakan dan bernalar seperti manusia, kata Leppert.

“Di universitas, ada banyak pedagogi tentang arti bernalar,” kata Leppert. “Ada banyak informasi ilmiah tentang menjalankan proses dan analisis.”

MEMBACA  Bulan Baru Ditemukan di Sekitar Uranus dan Neptunus

Tapi juga ada banyak data ketinggalan zaman, dari teori ilmiah dan medis yang sudah terbukti salah sampai narasi rasis dan kolonial.

“Ketika berhadapan dengan dataset besar, ada masalah rumit tentang konten dan bahasa berbahaya,” kata Kristi Mukk dari Harvard. Inisiatif ini mencoba memberikan panduan untuk mengurangi risiko penggunaan data, agar “membantu mereka membuat keputusan sendiri dan menggunakan AI secara bertanggung jawab.”

————

The Associated Press dan OpenAI punya perjanjian lisensi dan teknologi yang memungkinkan OpenAI mengakses sebagian arsip teks AP.

Cerita ini awalnya muncul di Fortune.com