Model kecerdasan buatan MM1 Apple Menunjukkan Raksasa Tidur yang Mulai Bangun

Sementara industri teknologi tergila-gila dengan kecerdasan buatan generatif, satu raksasa telah menahan diri: Apple. Perusahaan ini belum memperkenalkan bahkan emoji yang dihasilkan oleh kecerdasan buatan, dan menurut laporan New York Times hari ini dan laporan sebelumnya dari Bloomberg, Apple sedang dalam pembicaraan awal dengan Google untuk menambahkan model kecerdasan buatan Gemini perusahaan pencarian ke iPhone.

Namun, sebuah makalah penelitian yang diam-diam diposting online pada Jumat lalu oleh para insinyur Apple menunjukkan bahwa perusahaan ini sedang melakukan investasi baru yang signifikan dalam kecerdasan buatan yang sudah mulai membuahkan hasil. Makalah tersebut merinci pengembangan model kecerdasan buatan generatif baru yang disebut MM1 yang mampu bekerja dengan teks dan gambar. Para peneliti menunjukkan model ini menjawab pertanyaan tentang foto dan menampilkan keterampilan pengetahuan umum yang ditunjukkan oleh chatbot seperti ChatGPT. Nama model ini tidak dijelaskan tetapi bisa saja singkatan dari MultiModal 1.

MM1 tampaknya mirip dalam desain dan kompleksitas dengan berbagai model kecerdasan buatan terbaru dari raksasa teknologi lainnya, termasuk Llama 2 open source dari Meta dan Gemini dari Google. Karya dari pesaing Apple dan akademisi menunjukkan bahwa model-model seperti ini dapat digunakan untuk menggerakkan chatbot yang mampu atau membangun “agen” yang dapat menyelesaikan tugas dengan menulis kode dan mengambil tindakan seperti menggunakan antarmuka komputer atau situs web. Hal ini menunjukkan bahwa MM1 kemungkinan akan masuk ke dalam produk-produk Apple.

“Fakta bahwa mereka melakukan ini, menunjukkan bahwa mereka memiliki kemampuan untuk memahami cara melatih dan membangun model-model ini,” kata Ruslan Salakhutdinov, seorang profesor di Carnegie Mellon yang memimpin penelitian kecerdasan buatan di Apple beberapa tahun yang lalu. “Ini memerlukan sejumlah keahlian.”

MEMBACA  Pembatasan visa yang lebih santai mungkin akan membawa wisatawan asing kembali ke China

MM1 adalah model bahasa besar multimodal, atau MLLM, yang berarti model ini dilatih pada gambar serta teks. Hal ini memungkinkan model ini merespons permintaan teks dan juga menjawab pertanyaan kompleks tentang gambar tertentu.

Salah satu contoh dalam makalah penelitian Apple menunjukkan apa yang terjadi ketika MM1 diberikan foto meja restoran yang terkena sinar matahari dengan beberapa botol bir dan juga gambar menu. Ketika ditanya berapa banyak yang diharapkan seseorang membayar untuk “seluruh bir di meja,” model ini dengan benar membaca harga yang tepat dan menghitung biaya.

“Ini hanya permulaan. Tim sudah bekerja keras pada generasi model berikutnya.” – Brandon McKinzie, peneliti Apple

Ketika ChatGPT diluncurkan pada November 2022, model ini hanya bisa memasukkan dan menghasilkan teks, tetapi belakangan ini penciptanya OpenAI dan orang lain telah bekerja untuk memperluas teknologi model bahasa besar yang mendasarinya untuk bekerja dengan jenis data lain. Ketika Google meluncurkan Gemini (model yang sekarang menggerakkan jawabannya terhadap ChatGPT) pada Desember lalu, perusahaan tersebut memuji sifat multimodalnya sebagai awal arah baru yang penting dalam kecerdasan buatan. “Setelah munculnya LLM, MLLM muncul sebagai wilayah baru dalam model dasar,” kata makalah Apple.

MM1 adalah model yang relatif kecil jika diukur dari jumlah “parameter,” atau variabel internal yang disesuaikan saat model dilatih. Kate Saenko, seorang profesor di Universitas Boston yang ahli dalam visi komputer dan pembelajaran mesin, mengatakan hal ini bisa memudahkan para insinyur Apple untuk bereksperimen dengan metode pelatihan yang berbeda dan penyempurnaan sebelum memperluas saat mereka menemukan sesuatu yang menjanjikan.

Saenko mengatakan makalah MM1 memberikan jumlah detail yang mengejutkan tentang bagaimana model ini dilatih untuk publikasi perusahaan. Misalnya, para insinyur di balik MM1 menjelaskan trik untuk meningkatkan kinerja model termasuk meningkatkan resolusi gambar dan mencampur data teks dan gambar. Apple terkenal dengan kerahasiaannya, tetapi sebelumnya telah menunjukkan keterbukaan yang tidak biasa tentang penelitian kecerdasan buatan saat mencoba menarik bakat yang diperlukan untuk bersaing dalam teknologi yang penting.

MEMBACA  Apa yang ada di balik obsesi media Barat dengan Rwanda? | Opini