Model AI baru Apple dapat memahami layar beranda Anda dan meningkatkan kinerja Siri

Meskipun belum mengeluarkan model AI sejak tren generative AI dimulai, Apple sedang mengerjakan beberapa proyek AI. Baru minggu lalu, para peneliti Apple membagikan sebuah paper yang mengungkapkan model bahasa baru yang sedang dikerjakan perusahaan, dan sumber internal melaporkan bahwa Apple sedang mengembangkan dua robot bertenaga AI. Sekarang, rilis paper penelitian lain menunjukkan bahwa Apple baru saja memulai.

Pada hari Senin, para peneliti Apple menerbitkan paper penelitian yang memperkenalkan Ferret-UI, sebuah model bahasa besar multimodal (MLLM) baru yang mampu memahami layar antarmuka pengguna (UI) mobile.

MLLM berbeda dari LLM standar karena mereka melampaui teks, menunjukkan pemahaman mendalam terhadap elemen multimodal seperti gambar dan audio. Dalam kasus ini, Ferret-UI dilatih untuk mengenali elemen-elemen berbeda dari layar utama pengguna, seperti ikon aplikasi dan teks kecil.

Mengidentifikasi elemen layar aplikasi telah menjadi tantangan bagi MLLM di masa lalu karena ukurannya yang kecil. Untuk mengatasi masalah tersebut, menurut paper tersebut, para peneliti menambahkan “resolusi apa pun” di atas Ferret, yang memungkinkannya memperbesar detail-detail di layar.

Mengembangkan dari itu, MLLM Apple juga memiliki “kemampuan merujuk, menetapkan, dan beralasan,” yang memungkinkan Ferret-UI memahami layar UI sepenuhnya dan melakukan tugas-tugas ketika diinstruksikan berdasarkan konten layar, sesuai dengan yang terlihat pada foto di bawah ini.

Untuk mengukur seberapa baik model tersebut dibandingkan dengan MLLM lainnya, para peneliti Apple membandingkan Ferret-UI dengan GPT-4V, MLLM OpenAI, dalam benchmark publik, tugas dasar, dan tugas lanjutan.

Ferret-UI membungkam GPT-4V di hampir semua tugas kategori dasar, termasuk pengenalan ikon, OCR, klasifikasi widget, menemukan ikon, dan menemukan tugas widget di iPhone dan Android. Satu-satunya pengecualian adalah tugas “temukan teks” di iPhone, di mana GPT-4V sedikit lebih unggul dari model Ferret, seperti terlihat dalam grafik di bawah ini.

MEMBACA Google Photos dan Nano Banana Hadir di TV Samsung

Ketika datang ke pendalaman percakapan tentang temuan UI, GPT-4V memiliki sedikit keunggulan, mengalahkan Ferret 93,4% hingga 91,7%. Namun, para peneliti mencatat bahwa kinerja Ferret UI masih “patut dicatat” karena menghasilkan koordinat mentah daripada sekumpulan kotak yang telah ditentukan GPT-4V pilih dari.

Paper tersebut tidak membahas rencana Apple untuk memanfaatkan teknologi tersebut, atau apakah akan sama sekali. Sebaliknya, para peneliti menyatakan secara lebih luas bahwa kemampuan canggih Ferret-UI memiliki potensi untuk berdampak positif pada aplikasi terkait UI.

“Cikal bakal kemampuan yang ditingkatkan ini menjanjikan kemajuan substansial bagi berbagai aplikasi UI downstream, dengan demikian memperbesar manfaat yang diberikan oleh Ferret-UI dalam domain ini,” tulis para peneliti.

Cara-cara di mana Ferret-UI dapat meningkatkan Siri sangat jelas. Karena pemahaman mendalam model terhadap layar aplikasi pengguna, dan pengetahuan cara melakukan tugas tertentu, Ferret-UI dapat digunakan untuk mempercepat kinerja Siri untuk melakukan tugas-tugas untuk Anda.

Tentu saja ada minat dalam asisten yang melakukan lebih dari sekadar merespons pertanyaan. Gadget AI baru seperti Rabbit R1 mendapatkan banyak perhatian karena mampu menyelesaikan tugas secara keseluruhan untuk Anda, seperti memesan penerbangan atau pesan makanan, tanpa Anda harus memberi instruksi langkah demi langkah.