picture alliance/Contributor/picture alliance via Getty Images
Ikuti ZDNET: Tambahkan kami sebagai sumber pilihan di Google.
**Intisari ZDNET**
Pengembang AI berusaha menyeimbangkan utilitas model dengan privasi pengguna.
Riset terbaru dari Google menyarankan sebuah solusi potensial.
Hasilnya menjanjikan, namun masih banyak pekerjaan yang harus dilakukan.
Sudah lama pengembang AI menghadapi dilema: Semakin banyak data pelatihan yang dimasukkan ke dalam model bahasa besar (LLM), outputnya akan semakin fasih dan mirip manusia. Namun, di sisi yang sama, ada risiko memasukkan informasi pribadi yang sensitif ke dalam dataset tersebut, yang kemudian dapat dipublikasikan ulang secara verbatim oleh model, mengakibatkan kompromi keamanan besar bagi individu yang terdampak dan skandal PR yang merusak bagi para pengembang.
Bagaimana caranya menyeimbangkan utilitas dengan privasi?
Riset baru dari Google mengklaim telah menemukan solusinya — sebuah kerangka kerja untuk membangun LLM yang akan mengoptimalkan privasi pengguna tanpa degradasi besar dalam kinerja AI.
Minggu lalu, sebuah tim peneliti dari Google Research dan Google DeepMind meluncurkan VaultGemma, sebuah LLM yang dirancang untuk menghasilkan output berkualitas tinggi tanpa menghafal data pelatihannya secara kata demi kata. Hasilnya: Informasi sensitif yang masuk ke dalam dataset pelatihan tidak akan dipublikasikan ulang.
Noise Digital
Bahan utama di balik VaultGemma adalah kerangka kerja matematika yang dikenal sebagai *differential privacy* (DP), yang pada dasarnya merupakan noise digital yang mengacak kemampuan model untuk menghafal informasi dalam data pelatihannya dengan sempurna.
Yang terpenting, para peneliti menanamkan DP pada tingkat urutan *token*. Ini berarti bahwa pada tingkat paling fundamental, VaultGemma tidak akan dapat menghafal atau mereproduksi detail-detail yang telah dilatihnya dengan sempurna.
Juga: 4 cara saya menghemat uang untuk langganan tool AI favorit – dan Anda juga bisa
“Secara informal, karena kami memberikan perlindungan pada tingkat sekuens, jika informasi yang berkaitan dengan fakta atau inferensi (yang berpotensi privat) muncul dalam satu sekuens, maka VaultGemma pada dasarnya tidak mengetahui fakta tersebut: Tanggapan terhadap kueri apa pun akan secara statistik mirip dengan hasil dari model yang tidak pernah dilatih pada sekuens yang dimaksud,” tulis Google dalam sebuah postingan blog yang merangkum temuan mereka.
Ada keseimbangan rumit yang harus dicapai di sini: Para peneliti Google harus menambahkan noise digital ini tanpa mengorbankan kinerja model secara katastrofik. Semakin baik model AI dalam menghafal dan dengan demikian mereplikasi data pelatihannya dengan sempurna, semakin baik kinerjanya — setidaknya, dengan asumsi metrik “lebih baik” Anda adalah menghasilkan respons mirip manusia terhadap prompt pengguna.
Tapi jika metrik Anda adalah mengoptimalkan privasi pengguna, maka paradigma hanya menghafal menjadi masalah, karena kebanyakan dari kita tidak ingin hidup di dunia di mana model AI besar hanya menyerap salinan informasi pribadi kita yang kemudian dapat dipublikasikan ulang oleh model yang sama secara tidak terduga.
Oleh karena itu, riset baru Google berfokus pada pemetaan komprehensif formula optimal untuk menyeimbangkan komputasi, privasi, dan utilitas model.
Hasil Awal yang Menjanjikan
Dibangun di atas keluarga model terbuka Gemma 2 yang diluncurkan Google pada tahun 2024, VaultGemma hanya memiliki 1 miliar parameter menurut perusahaan — ukuran yang relatif kecil dibandingkan dengan model terbesar dan paling kuat di pasaran, yang beberapa di antaranya dilaporkan dibangun dengan lebih dari satu triliun parameter.
Namun, VaultGemma masih berkinerja pada berbagai tolok ukur kunci yang kurang lebih setara dengan beberapa model lama, termasuk GPT-2 dari OpenAI. Ini menunjukkan bahwa kerangka kerja optimasi komputasi-privasi-utilitas pada akhirnya bisa menjadi alternatif yang layak untuk model proprietary terkemuka, meskipun masih jauh untuk mengejar ketertinggalan.
“Perbandingan ini mengilustrasikan bahwa metode pelatihan privat saat ini menghasilkan model dengan utilitas yang sebanding dengan model non-privat dari kira-kira 5 tahun yang lalu, menyoroti kesenjangan penting yang akan membantu komunitas untuk secara sistematis menutupnya,” tulis Google dalam postingan blog tersebut.
Bobot model dan metode pelatihan di balik VaultGemma telah dipublikasikan dalam sebuah makalah penelitian untuk memungkinkan komunitas AI menyempurnakan model privat lebih lanjut. Bobotnya juga dapat diakses melalui HuggingFace dan Kaggle.