Apple membangun model AI yang dimudahkan menggunakan inovasi dari Stanford, Google

Jeenah Moon/Bloomberg via Getty Images

Dunia sedang memperhatikan apa yang akan dilakukan Apple untuk melawan dominasi Microsoft dan Google dalam kecerdasan buatan generatif. Sebagian besar mengasumsikan inovasi raksasa teknologi ini akan berbentuk jaringan saraf pada iPhone dan perangkat iOS lainnya. Petunjuk-petunjuk kecil mulai muncul di sana-sini.

Juga: Bagaimana kemajuan kecerdasan buatan Apple bisa membuat atau menghancurkan iPhone 16

Apple baru saja memperkenalkan model bahasa besar “embedded” (LLM) mereka sendiri untuk dijalankan pada perangkat mobile, OpenELM, pada dasarnya dengan menggabungkan terobosan dari beberapa lembaga penelitian, termasuk para ilmuwan pembelajaran mendalam Google dan akademisi di Stanford dan tempat lainnya.

Seluruh kode untuk program OpenELM diposting di GitHub, bersama dengan berbagai dokumentasi untuk pendekatan pelatihan. Karya Apple, yang diuraikan dalam sebuah paper oleh Sachin Mehta dan tim, “OpenELM: Sebuah Keluarga Model Bahasa Efisien dengan Framework Pelatihan dan Inferensi Sumber Terbuka”, diposting di server pra-cetak arXiv, difokuskan pada perangkat mobile karena ukuran jaringan saraf yang mereka gunakan hanya memiliki 1,3 miliar bobot saraf, atau, parameter.

Angka tersebut jauh di bawah ratusan miliar parameter yang digunakan oleh model-model seperti GPT-4 dari OpenAI atau Gemini dari Google. Lebih banyak parameter secara langsung meningkatkan memori komputer yang diperlukan, sehingga jaringan saraf yang lebih kecil kemungkinan besar bisa muat ke dalam perangkat mobile dengan lebih mudah.

Gabungan Mehta dan tim akan cukup biasa tanpa kontribusi kunci: efisiensi. Para peneliti menyesuaikan lapisan-lapisan jaringan saraf yang dalam sehingga model kecerdasan buatan lebih efisien dibandingkan dengan model-model sebelumnya dalam hal seberapa banyak data yang perlu dihitung saat melatih jaringan saraf.

Juga: 2024 mungkin menjadi tahun di mana kecerdasan buatan belajar di telapak tangan Anda

MEMBACA  Mainan Mainan Masa Kecil yang Ingin Kami Miliki Kembali

Secara khusus, mereka dapat mencapai atau mengalahkan hasil dari sejumlah jaringan saraf untuk komputasi mobile “sambil membutuhkan 2× token pelatihan lebih sedikit”, di mana token adalah karakter, kata, atau fragmen kalimat individu dalam data pelatihan.

Apple memulai dari pendekatan yang sama dengan sebagian besar LLMs: sebuah transformer. Transformer adalah jaringan saraf tanda tangan dalam pemahaman bahasa, diperkenalkan oleh ilmuwan Google pada tahun 2017. Setiap model bahasa utama sejak saat itu, termasuk BERT dari Google dan keluarga model GPT dari OpenAI, telah mengadopsi transformer.

Apple mencapai efisiensi tinggi dengan meleburkan transformer dengan teknik yang diperkenalkan pada tahun 2021 oleh para peneliti di University of Washington, Facebook AI Research, dan Allen Institute for AI, yang disebut DeLighT. Karya tersebut melangkah jauh dari pendekatan konvensional di mana semua bobot saraf sama untuk setiap “lapisan” jaringan, perhitungan matematis berturut-turut yang dilalui oleh data.

Sebaliknya, para peneliti memilih menyesuaikan setiap lapisan dengan jumlah parameter yang berbeda. Karena beberapa lapisan memiliki parameter yang relatif sedikit, mereka menyebut pendekatan mereka sebagai “transformer yang dalam dan ringan”, maka nama DeLighT.

Juga: Snowflake mengatakan LLM baru mereka melebihi kinerja Llama 3 milik Meta dengan setengah pelatihan

Para peneliti mengatakan bahwa: “DeLighT sebanding atau meningkatkan kinerja transformer dasar dengan 2 hingga 3 kali lipat parameter lebih sedikit secara rata-rata.”

Apple, menggunakan DeLighT, menciptakan OpenELM, di mana setiap lapisan jaringan saraf memiliki jumlah parameter saraf yang berbeda, pendekatan non-uniform terhadap parameter.

“LLM yang ada menggunakan konfigurasi yang sama untuk setiap lapisan transformer dalam model, menghasilkan alokasi parameter yang seragam di seluruh lapisan,” tulis Mehta dan tim. “Berbeda dengan model-model ini, setiap lapisan transformer di OpenELM memiliki konfigurasi yang berbeda (misalnya, jumlah head dan dimensi jaringan pengumpan), menghasilkan jumlah parameter yang bervariasi di setiap lapisan model.”

MEMBACA  Negara Skandinavia yang Kaya Sumber Daya Fosil Memimpin Pertumbuhan GDP Tertingginya pada Bulan Januari

Pendekatan non-uniform, tulis mereka, “memungkinkan OpenELM lebih baik memanfaatkan anggaran parameter yang tersedia untuk mencapai akurasi yang lebih tinggi.”

Juga: Yaiks! Microsoft Copilot gagal dalam setiap tes pemrograman saya

Kompetisi yang diukur Apple menggunakannya melawan menggunakan jaringan saraf yang sama-sama kecil. Para pesaing ini termasuk MobiLlama dari Universitas Kecerdasan Buatan Mohamed bin Zayed dan lembaga-lembaga lain, serta OLMo, yang diperkenalkan tahun ini oleh para peneliti di Allen Institute for Artificial Intelligence dan sarjana dari University of Washington, Yale University, New York University, dan Carnegie Mellon University.

Eksperimen oleh Apple tidak dilakukan pada perangkat mobile. Sebaliknya, perusahaan menggunakan workstation berbasis Intel dengan satu GPU Nvidia dan Ubuntu Linux.

Pada sejumlah uji benchmark, program OpenELM mencapai skor yang lebih baik, meskipun lebih kecil dan/atau menggunakan token lebih sedikit. Sebagai contoh, dalam enam dari tujuh uji coba, OpenELM mengalahkan OLMo meskipun memiliki parameter yang lebih sedikit — 1,08 miliar versus 1,18 miliar — dan hanya 1,5 triliun token pelatihan versus 3 triliun untuk OLMo.

Juga: Bagaimana menghindari masalah pengembangan keterampilan AI

Meskipun OpenELM dapat lebih akurat daripada model-model tersebut dengan lebih efisien, para penulis mencatat area penelitian lebih lanjut di mana OpenELM lebih lambat dalam beberapa kasus untuk menghasilkan prediksinya.

Pertanyaan terbuka untuk kerja AI iOS Apple telah menjadi apakah raksasa teknologi ini akan melisensikan teknologi dari Google atau pihak lain yang memimpin pengembangan AI. Investasi Apple dalam perangkat lunak sumber terbuka memberikan kemungkinan menarik bahwa Apple mungkin mencoba untuk memperkuat ekosistem terbuka dari mana perangkat mereka dapat mendapatkan manfaat.