Adobe menyertakan gambar yang dihasilkan oleh AI dalam set pelatihan Firefly yang ‘aman secara komersial’

Adobe Generative artificial intelligence (AI) image creators semakin populer, namun penggunaannya juga memicu perdebatan tentang materi berhak cipta dalam dataset pelatihan. Sekarang informasi baru tentang Adobe Firefly, jawaban perusahaan terhadap alat AI generatif seperti Midjourney dan DALL-E, semakin mempersulit pembicaraan.

Seperti generator gambar lainnya, Firefly menciptakan konten visual, gambar vektor, efek teks, dan lainnya dari teks prompt yang dimasukkan pengguna. Namun Adobe mengklaim Firefly sebagai outlier dalam ruang tersebut karena datasetnya, yang dianggap perusahaan sebagai kontrol kualitas.

Model bahasa besar (LLM) yang mendasari generator gambar menyerap miliaran gambar untuk bekerja. Membeli lisensi untuk konten sebanyak itu mahal, dan komputasi pada skala ini sudah mahal, sehingga perusahaan didorong untuk mengambil konten gratis dari internet tanpa memberi kredit atau kompensasi kepada pencipta. Generator teks populer, termasuk ChatGPT, juga dilatih dengan cara ini, dengan sampel bahasa yang diambil dari web.

Perusahaan AI semakin diawasi karena mengumpulkan data dengan cara ini. Stable Diffusion dan Midjourney telah disued oleh seniman dan organisasi seperti Getty atas lisensi yang tidak tepat. Pada bulan Desember, The New York Times menuntut OpenAI dan Microsoft karena menggunakan karyanya untuk melatih ChatGPT.

Website Adobe mengatakan Firefly “aman secara komersial” dibandingkan dengan produk pesaing karena dilatih dengan “konten berlisensi, seperti Adobe Stock, dan konten domain publik dimana hak cipta telah berakhir.” Adobe bahkan memiliki rencana kompensasi untuk kontributor Stock tertentu yang kontennya digunakan untuk melatih iterasi pertama alat tersebut.

Namun, Bloomberg melaporkan Jumat bahwa sekitar 5% data pelatihan Firefly adalah AI-generated, dibuat oleh pesaing seperti Midjourney. Konten yang dimasukkan ke dalam dataset Firefly karena pencipta dapat mengirimkan gambar AI-generated ke pasar Adobe Stock, yang mereka kompensasi sebagai bagian dari program Adobe.

MEMBACA Universal Menegaskan Para Penyihir Jahat Dibayar Gaji yang Sama

Untuk Adobe menggunakan konten sintetis setelah memuji datasetnya lebih ketat daripada pesaingnya terlihat tidak konsisten. Meskipun tidak diwajibkan secara hukum untuk mempublikasikan data pelatihan, detail ini menimbulkan keraguan pada klaim kualitas Adobe, terutama mengingat gambar-gambar tersebut dibuat menggunakan alat yang sekarang dikritik karena hak cipta.

Meskipun demikian, Adobe tetap mempertahankan bahwa mereka mengontrol kualitas dataset mereka. “Setiap gambar yang dikirimkan ke Adobe Stock, termasuk subset gambar yang dihasilkan dengan AI, melalui proses moderasi yang ketat untuk memastikan tidak ada IP, merek dagang, karakter yang dapat dikenali, atau logo, atau nama seniman,” kata juru bicara Adobe kepada Bloomberg.

Penemuan ini menunjukkan adanya perbedaan antara pesan publik dan komunikasi internal. Bloomberg menemukan bahwa manajer Hubungan Seniman untuk Adobe Stock memposting di komunitas Discord bahwa Firefly akan menggunakan database pelatihan yang baru tanpa AI generatif setelah keluar dari beta. Namun setelah rilis publik alat tersebut, karyawan Adobe lainnya mengatakan di Discord bahwa gambar-gambar yang dihasilkan AI “meningkatkan model pelatihan dataset kami, dan kami memutuskan untuk menyertakan konten ini untuk versi Firefly yang dirilis secara komersial.”

Perusahaan ini sepertinya menarik garis antara konten sintetis secara umum dan elemen-elemen tertentu yang perlu dilisensikan, namun wilayah tersebut masih kabur. Apakah pengguna Firefly akan mengalami masalah hak cipta di masa depan masih harus dilihat. Mengingat sifat baru dari generasi gambar generatif, dapat dikatakan bahwa ada risiko hukum tertentu dalam membuat konten dengan salah satu alat ini.