Apple merilis model pengeditan gambar AI sumber terbuka

Apple tengah mencoba-coba dalam pengeditan gambar AI dengan model AI multimodal open-source.

Pada awal pekan ini, para peneliti dari Apple dan University of California, Santa Barbara merilis MLLM-Guided Image Editing, atau “MGIE;” sebuah model AI multimodal yang dapat mengedit gambar seperti Photoshop, berdasarkan perintah teks sederhana.

Di depan perkembangan AI, Apple selalu hati-hati dalam merencanakan langkah-langkahnya. Perusahaan ini juga menjadi salah satu dari sedikit perusahaan yang tidak mengumumkan rencana besar terkait AI setelah kehebohan ChatGPT tahun lalu. Namun, Apple konon memiliki versi ChatGPT mirip chatbot yang bernama “Apple GPT” dan Tim Cook menyatakan bahwa Apple akan mengumumkan beberapa pengumuman besar terkait AI pada akhir tahun ini.

LIHAT JUGA:

Tim Cook mengatakan pengumuman besar terkait AI dari Apple akan datang pada akhir tahun ini

Apakah pengumuman ini mencakup alat pengeditan gambar AI masih belum diketahui, tetapi berdasarkan model ini, Apple jelas sedang melakukan penelitian dan pengembangan.

Walaupun sudah ada alat pengeditan gambar AI lain di luar sana, “instruksi manusia terkadang terlalu singkat untuk metode saat ini untuk dapat menangkap dan mengikutinya,” kata makalah penelitian tersebut. Hal ini sering menghasilkan hasil yang kurang memuaskan atau gagal. MGIE adalah pendekatan yang berbeda yang menggunakan MLLMs, atau multimodal large language models, untuk memahami perintah teks atau “instruksi ekspresif,” serta data pelatihan gambar. Dengan belajar dari MLLMs, MGIE dapat memahami perintah dalam bahasa alami tanpa perlu deskripsi yang rumit.

Dalam contoh-contoh dari penelitian ini, MGIE dapat mengambil gambar masukan sebuah pizza pepperoni dan dengan menggunakan perintah, “buat ini lebih sehat” dapat menyimpulkan bahwa “ini” merujuk pada pizza pepperoni dan “lebih sehat” dapat diinterpretasikan sebagai menambahkan sayuran. Dengan demikian, gambar keluaran adalah sebuah pizza pepperoni dengan beberapa sayuran hijau yang tersebar di atasnya.

MEMBACA  Ingin Gemini dan ChatGPT Menulis Kampanye Politik? Hanya Bingungkan Mereka

Dalam contoh lain yang membandingkan MGIE dengan model lain, gambar masukan adalah garis pantai yang dikelilingi oleh hutan dan sebuah badan air yang tenang. Dengan perintah “tambahkan kilat dan buat air memantulkan kilat,” model lain mengabaikan pantulan kilat, tetapi MGIE berhasil menangkapnya.

MGIE tersedia sebagai model open-source di GitHub dan sebagai versi demo yang di-hosting di Hugging Face.

Topik
Apple
Kecerdasan Buatan