Pagi Kamis, berita muncul bahwa seseorang menjual data mahasiswa dari University of Michigan kepada pekerja teknologi yang mengembangkan teknologi chatbot AI. Seorang karyawan Google DeepMind, pusat penelitian AI perusahaan itu, mengatakan bahwa mereka telah mendapatkan tawaran untuk rekaman kuliah, diskusi mahasiswa, dan jam kantor, serta esai yang ditulis oleh mahasiswa senior dan pascasarjana, semuanya tersedia dengan biaya lisensi yang rendah. Namun, sekarang Universitas mengatakan bahwa itu semua adalah kesalahpahaman, bahwa mahasiswa memberikan persetujuan mereka, dan tidak ada yang perlu dikhawatirkan.
Seperti atau Tidak, Dokter Anda Akan Menggunakan AI | AI Unlocked
Susan Zhang, seorang insinyur di DeepMind, mengatakan bahwa dia menerima pesan sponsor LinkedIn yang menjual informasi tersebut, dan menawarkan sampel gratis data University of Michigan untuk membuktikan nilainya.
“Saya menghubungi Anda karena, berdasarkan profil Anda, Anda mungkin bekerja dengan Model Bahasa Besar (LLM) atau pemrosesan bahasa alami,” kata pesan penjualan itu. “Saya ingin memberi tahu Anda bahwa University of Michigan sedang melisensikan data pidato akademik dan makalah mahasiswa yang bisa sangat berguna untuk melatih atau menyetel LLM.”
Pesan tersebut menawarkan data dari 85 jam kuliah, bagian diskusi, dan wawancara seharga $15.595, kumpulan kedua berisi 829 makalah yang ditulis oleh mahasiswa University of Michigan di berbagai disiplin ilmu seharga $12.595, atau paket diskon untuk kedua set data tersebut seharga $25.000.
Namun, pesan “dikirim oleh vendor pihak ketiga baru yang memberikan informasi yang tidak akurat dan sejak itu diminta untuk menghentikan pekerjaan mereka,” kata Colleen Mastony, juru bicara University of Michigan, dalam sebuah email. “Tidak ada transaksi atau berbagi konten yang dilakukan oleh vendor. Data mahasiswa tidak pernah dijual oleh University of Michigan.” Mastony tidak membagikan detail tentang siapa vendor ini, atau apa yang tidak akurat tentang informasi yang mereka tawarkan.
Universitas mungkin tidak menjual data secara langsung, tetapi data tersebut (atau pernah) ditawarkan untuk dijual oleh organisasi bernama Catalyst Research Alliance, yang mengklaim menjadi mitra University of Michigan serta North Carolina State University. Situs web tersebut menawarkan sampel dari set data tersebut, yang dilengkapi dengan sebuah esai berjudul “Kelemahan Demokrasi Uni Eropa,” dan apa yang tampaknya merupakan rekaman bagian diskusi dari sebuah kelas.
Catalyst Research Alliance dan North Carolina State University tidak segera merespons permintaan komentar.
Menurut Mastony, rekaman dan makalah tersebut disumbangkan oleh sukarelawan mahasiswa yang berpartisipasi dalam penelitian yang berusia dua dekade, dan tidak ada data yang mencakup nama mahasiswa atau informasi pribadi lainnya. “Makalah dan rekaman tertentu ini telah lama tersedia secara gratis bagi akademisi – lagi tanpa informasi identifikasi apa pun – dan telah digunakan sebagai alat untuk meningkatkan kemampuan menulis dan berbicara dalam pendidikan,” kata Mastony.
“Saya pikir layak untuk mengejar universitas mana yang menjual data mahasiswa dan apa syaratnya,” kata Zhang kepada Gizmodo dalam pesan di X. “Lisensi lebih baik daripada mengambil data tanpa atribusi, tetapi saluran atribusi di sini mungkin hanya dibangun setengah jalan (artinya pencipta asli tidak akan mendapatkan uang, sedangkan penjual ulang yang menyimpan data akan mendapatkan semua keuntungan).”
Melatih model bahasa besar seperti perangkat lunak yang menjalankan chatbot seperti ChatGPT dan Bard membutuhkan kumpulan data yang jelas dan besar dalam berbagai subjek dan disiplin. Meskipun set data University of Michigan kecil, konten yang terorganisir dengan baik tentang rentang subjek yang sempit dapat berguna untuk menyetel model-model tertentu, terutama alat-alat yang dirancang untuk tujuan tertentu terkait akademik, komunikasi formal, atau untuk melatih AI yang lebih umum untuk meningkatkan kinerja mereka dalam bidang keahlian subjek tertentu.
Update 02/15/2024, pukul 5:45 sore waktu ET: Cerita ini telah diperbarui dengan komentar dari University of Michigan.