OpenAI Mencampuri Forum Orangtua Mega-Populer yang Salah

Pikirkan topik apa pun yang terkait dengan membesarkan anak-anak, dan mungkin ada posting tentangnya di Mumsnet, forum orang tua berbasis di Inggris yang sudah lama ada dan sangat populer, yang sering menimbulkan kontroversi untuk ibu-ibu. Selama lebih dari dua dekade beroperasi, Mumsnet telah mengumpulkan arsip lebih dari enam miliar kata yang ditulis oleh para pengguna yang sangat terlibat, tentang topik seperti popok kotor dan suami yang malas. (Jangan lupa tentang curhat gila tentang lumba-lumba.) Pada musim semi ini, setelah Mumsnet menemukan bahwa perusahaan AI sedang mengumpulkan data-datanya, perusahaan mengatakan bahwa mereka memutuskan untuk mencoba untuk melakukan kesepakatan lisensi dengan beberapa pemain besar di bidang tersebut, termasuk OpenAI, yang awalnya menunjukkan kesediaan untuk menjelajahi sebuah pengaturan setelah Mumsnet pertama kali menghubungi mereka. Setelah pembicaraan dengan OpenAI gagal, Mumsnet pada bulan Juli mengumumkan niatnya untuk menempuh tindakan hukum. Menurut Mumsnet, selama percakapan awal itu, kepala kemitraan strategis OpenAI mengatakan kepada perusahaan bahwa dataset lebih dari 1 miliar kata menarik minat dari raksasa AI tersebut. Para pimpinan Mumsnet sangat antusias. “Kami menghabiskan cukup banyak waktu dalam sebuah diskusi dengan mereka,” kata pendiri dan CEO Mumsnet, Justine Roberts kepada WIRED. “Kami harus menandatangani beberapa NDA, dan mereka ingin banyak informasi dari kami.” Namun, lebih dari sebulan kemudian, OpenAI mengatakan kepada Mumsnet bahwa perusahaan tidak lagi tertarik untuk bermitra pada saat itu, menurut pertukaran email yang ditinjau oleh WIRED. Ketika ditanya mengapa, staf OpenAI menggambarkan dataset 6 miliar kata Mumsnet sebagai terlalu kecil untuk membenarkan sebuah pengaturan lisensi, kata Roberts. Mereka juga mencatat bahwa OpenAI pada dasarnya tertarik pada dataset besar yang tidak dapat diakses oleh publik secara online, dan bahwa mereka ingin dataset yang menangkap pengalaman manusia yang luas. Sentimen ini juga disuarakan oleh perusahaan ketika diminta komentar oleh WIRED. “Kami mengejar kemitraan untuk dataset berskala besar yang mencerminkan masyarakat manusia dan tidak mengejar kemitraan semata-mata untuk informasi yang sudah tersedia secara publik,” kata juru bicara OpenAI, Kayla Wood. “Kami mendukung pilihan penerbit dan pencipta, menawarkan cara bagi mereka untuk mengekspresikan preferensi mereka tentang bagaimana situs dan konten mereka bekerja dengan AI dalam hasil pencarian dan pelatihan model AI generatif.” Roberts mengatakan dia “terganggu” dengan perkembangan ini. Dia mengingat bahwa OpenAI pada awalnya tampaknya sangat tertarik pada Mumsnet karena konten yang ditulis oleh perempuan dengan sangat banyak. “Ini adalah data percakapan berkualitas tinggi,” katanya. “Ini adalah 90 persen percakapan perempuan, yang cukup tidak biasa.” OpenAI telah melakukan berbagai kesepakatan lisensi data dengan media dan platform dalam setahun terakhir, masuk ke dalam kesepakatan dengan Vox Media, the Atlantic, Axel Springer, Time, dan perusahaan induk WIRED Condé Nast, serta platform yang diisi dengan konten yang dibuat oleh pengguna seperti Reddit. (Automattic, pemilik WordPress.com dan Tumblr, juga dikabarkan sedang dalam pembicaraan lisensi sebelumnya tahun ini.) Karena detail-detail kesepakatan itu belum diungkapkan, tidak jelas apa ukuran korpus masing-masing. Ketika WIRED menanyakan tentang ukuran dataset yang akan dipertimbangkan untuk lisensi komersial, OpenAI menolak untuk membagikan informasi tersebut. Tetapi juru bicara Kayla Wood menekankan bahwa kemitraan perusahaan dengan penerbit “difokuskan pada menampilkan konten mereka di produk kami dan meningkatkan lalu lintas ke situs mereka.”

MEMBACA Bagaimana Pengembang 'World of Warcraft' Meluncurkan Salah Satu Serikat Terbesar dalam Permainan Video