Berpindahlah Gemini, kecerdasan buatan sumber terbuka memiliki trik video sendiri

Maria Diaz/ZDNET
Google memukau dunia dengan demo terbaru bulan ini dari program kecerdasan buatan generatif tercanggih mereka, Gemini 1.5, sebuah tindak lanjut dari program Gemini pertama, yang dirilis bulan Desember lalu. Di antara prestasi lainnya, Gemini 1.5 unggul dalam hal-hal seperti tantangan “mencari jarum di tumpukan jerami”, di mana program harus mengidentifikasi frame video yang cocok dengan deskripsi teks.

Namun, program Google – seperti kebanyakan program kecerdasan buatan dari entitas komersial terbesar – memiliki sedikit detail teknis tentang bagaimana perangkat lunak tersebut berfungsi. Laporan teknis berhalaman 58 yang dirilis Google tentang Gemini 1.5 hanya berisi deskripsi umum dari program dan pendekatan yang digunakan, tanpa merinci arsitektur dari mana Gemini 1.5 terdiri. Dan tentu saja, kode tidak tersedia.

Dalam hal ini, Gemini 1.5 melanjutkan tren terbaru dari Google dan OpenAI serta perusahaan komersial lainnya – menyembunyikan detail teknis kecerdasan buatan.

Jenis kerahasiaan tersebut menyajikan peluang bagi perangkat lunak sumber terbuka yang dapat menyamai beberapa kemampuan Gemini sambil membuka akses ke kode-kodenya.

Dalam karya yang diterbitkan bulan ini oleh Hao Liu, Wilson Yan, Matei Zaharia, dan Pieter Abbeel dari University of California di Berkeley, dan dijelaskan di situs GitHub proyek tersebut, para ilmuwan mengadaptasi model bahasa besar sumber terbuka Meta, Llama 2, untuk membuat program multi-modal yang, seperti Gemini 1.5, dapat memproses tidak hanya teks tetapi juga video dan gambar, meskipun tidak audio (berbeda dengan Gemini 1.5).

Menggunakan versi mainstream Llama 2, sebuah jaringan saraf 7 miliar parameter yang tidak terlalu besar, para penulis dapat menangani input hingga satu juta “token”, yang merupakan teks, gambar, atau video yang dimasukkan ke dalam program. Angka ini mewakili peningkatan dramatis dari 128.000 yang ditangani oleh versi Gemini 1.0 dan GPT-4 Turbo milik OpenAI.

MEMBACA Apple bertaruh pada kecerdasan buatan untuk meningkatkan penjualan iPhone yang menurun

Ciptaan mereka, yang dikenal sebagai Large World Model (LWM), melakukan tugas-tugas serupa dengan Gemini 1.5. Ini dapat menyelesaikan masalah tipe mencari jarum di tumpukan jerami, seperti menjawab permintaan, “Jaket warna apa yang dikenakan gadis di atas trampolin?”, ketika diberikan video YouTube selama satu jam:

Large World Model U.C. Berkeley dapat menjawab pertanyaan “mencari jarum di tumpukan jerami” tentang momen tertentu dalam video lebih baik daripada Gemini 1.0 milik Google atau GPT-4 Turbo milik OpenAI.

Liu dan tim belum menunjukkan bagaimana hasil mereka dibandingkan dengan Gemini 1.5. Sebaliknya, tim menunjukkan perbandingan dengan GPT-4 dan Gemini 1.0.

Seperti yang ditunjukkan dalam ilustrasi di atas, LWM menjawab pertanyaan mencari jarum di tumpukan jerami dengan benar, sementara dua yang lain gagal.

LWM dapat berbicara tentang apa yang terjadi dalam klip video, dan memberikan diskusi panjang tentang konten gambar, yang merupakan proses yang para peneliti sebut “percakapan gambar”. LWM juga dapat menghasilkan gambar dan video ketika diberikan deskripsi teks dalam prompt (lihat kedua contoh di bawah):

Secara mencolok, tampaknya mungkin bahwa Liu dan tim mampu mencapai hasil yang setara dengan Gemini 1.0 dengan daya komputasi yang lebih sedikit. LWM dilatih pada satu slice dari TPU Versi 4 “POD”, yang terdiri dari 256 chip TPU, dengan dua inti masing-masing, selama 58 jam. Dalam kasus Gemini 1.0, laporan teknis, sama seperti laporan teknis untuk 1.5, mengandung sedikit detail teknis tentang infrastruktur pelatihan. Yang kita tahu hanyalah bahwa Google menggunakan sejumlah TPU Versi 4 dan Versi 5 PODs untuk jangka waktu tertentu. Sangat mungkin mereka menggunakan jumlah komputasi yang jauh lebih besar daripada yang dilakukan Liu dan tim untuk melatih LWM.

MEMBACA Trailer musim 2 Severance menggoda dengan jawaban dan menimbulkan pertanyaan baru yang aneh

Jadi, bagaimana LWM – yang didasarkan hanya pada program sumber terbuka yang relatif kecil, berjalan pada daya komputasi yang lebih sedikit – mampu mencapai hasil yang serupa dengan Gemini 1.0? Nah, LWM adalah hasil dari pendekatan yang berbeda terhadap masalah bagaimana mengembangkan jaringan saraf.

Kedua model tersebut berasal dari penggunaan jenis jaringan saraf yang sama, yaitu Transformer. Google menambahkan “inovasi dalam algoritma pelatihan, dataset, dan infrastruktur” ke Transformer.

Dalam kasus LWM, Liu dan tim melatih model dalam beberapa putaran berturut-turut, dengan jendela “konteks” yang semakin besar, yaitu jumlah sampel data yang diolah program pada setiap iterasi. Tim mulai dengan 32.768 token dalam jendela konteks, yang dapat dianggap sebagai beberapa potongan data. Mereka kemudian bekerja hingga satu juta token.

Pendekatan tersebut disebut “Ring Attention”, dan dikembangkan tahun lalu oleh Liu dan tim. Inti dalam Ring Attention adalah bahwa Anda dapat melatih jaringan saraf pada contoh data secara bersamaan, bukan secara berurutan, untuk memparallelkan pelatihan, yang berarti melakukan lebih banyak pekerjaan dalam waktu yang lebih singkat, dan memanfaatkan chip lebih efisien.

“Kami mengadopsi pendekatan pelatihan […] di mana model kami dilatih pada panjang urutan yang semakin panjang, dimulai dari 32K token dan berakhir pada 1M token dalam kekuatan dua yang semakin tinggi,” tulis Liu dan tim.

“Secara intuitif, ini memungkinkan model untuk menghemat komputasi dengan pertama-tama mempelajari ketergantungan jarak pendek sebelum beralih ke urutan yang lebih panjang. Dengan melakukannya, kami dapat melatih pada ord…

LWM dilatih pada urutan data yang semakin panjang.

Data yang digunakan untuk melatih LWM termasuk beberapa set data paling terkemuka yang telah dilepaskan ke publik, termasuk Books3, yang berada di tengah-tengah kontroversi atas pelanggaran hak cipta. Para peneliti juga menggunakan Video Instruct-100K, sebuah “dataset percakapan video” yang dihosting di GitHub.

MEMBACA Studi: Kecerdasan Buatan meningkatkan kemampuan menulis kreatif individu, tetapi mengurangi keberagaman kreatif secara keseluruhan

Google tidak mengungkapkan data pelatihan Gemini 1.0, tetapi hanya menggambarkannya sebagai berikut: “Model Gemini dilatih pada dataset yang bersifat multimodal dan multibahasa. Dataset pretraining kami menggunakan data dari dokumen web, buku, dan kode, dan mencakup data gambar, audio, dan video.”

Sementara Google telah melangkah maju dengan Gemini 1.5, yang dapat menangani hingga 10 juta token dalam inputnya, Liu dan tim percaya bahwa Ring Attention dapat “secara teoritis diperpanjang hingga konteks tak terbatas, dibatasi hanya oleh jumlah perangkat yang tersedia.”

Mereka melanjutkan: “Kami percaya bahwa model yang kami rilis akan memberikan dasar bagi pekerjaan masa depan dalam mengembangkan model konteks yang lebih panjang, serta mendorong benchmark yang lebih menantang yang berisi tugas-tugas jarak jauh yang sulit yang memerlukan tingkat sintesis yang lebih tinggi, daripada hanya pengambilan fakta semata.”

Kode LWM diposting di situs GitHub tim penelitian.