Model AI Gemini Andalan Google Mendapatkan Peningkatan Besar

Model Gemini AI milik Alphabet telah menjadi publik selama dua bulan saja, namun perusahaan tersebut sudah merilis pembaruan. Gemini Pro 1.5, yang diluncurkan dengan ketersediaan terbatas hari ini, lebih kuat daripada pendahulunya dan mampu mengolah jumlah teks, video, atau audio yang besar dalam satu waktu.

Demis Hassabis, CEO Google DeepMind yang mengembangkan model baru ini, membandingkan kapasitas input yang luas dengan ingatan kerja seseorang, sesuatu yang telah ia teliti sebagai seorang ahli neurosains bertahun-tahun yang lalu. “Yang hebat dari kemampuan inti ini adalah mereka membuka kemampuan tambahan yang dapat dilakukan oleh model ini,” katanya.

Dalam sebuah demo, Google DeepMind menunjukkan Gemini Pro 1.5 menganalisis transkrip komunikasi Apollo 11 berupa PDF sebanyak 402 halaman. Model ini diminta untuk mencari bagian-bagian lucu dan menyoroti beberapa momen, seperti saat astronot mengatakan bahwa keterlambatan komunikasi disebabkan oleh istirahat makan sandwich. Demo lain menunjukkan model ini menjawab pertanyaan tentang tindakan-tindakan tertentu dalam film Buster Keaton. Versi sebelumnya dari Gemini hanya dapat menjawab pertanyaan-pertanyaan ini untuk teks atau video yang jauh lebih pendek. Google berharap kemampuan baru ini akan memungkinkan pengembang untuk membangun jenis aplikasi baru di atas model ini.

“Rasanya sangat ajaib bagaimana model ini melakukan penalaran di setiap halaman, setiap kata,” kata Oriol Vinyals, seorang ahli riset di Google DeepMind.

Google mengatakan bahwa Gemini Pro 1.5 dapat memproses dan memahami satu jam video, 11 jam audio, 700.000 kata, atau 30.000 baris kode sekaligus—beberapa kali lebih banyak daripada model AI lainnya, termasuk GPT-4 milik OpenAI yang menggerakkan ChatGPT. Perusahaan ini belum mengungkapkan detail teknis di balik pencapaian ini. Hassabis mengatakan bahwa salah satu penggunaan model yang mampu mengolah jumlah teks yang besar, yang diuji oleh para peneliti di Google DeepMind, adalah mengidentifikasi inti pembicaraan penting dalam diskusi Discord dengan ribuan pesan.

MEMBACA Kesetaraan melalui Desain: Model untuk Mengelola Risiko Diskriminasi AI

Gemini Pro 1.5 juga lebih mampu—setidaknya untuk ukurannya—seperti yang diukur oleh skor model pada beberapa benchmark populer. Model baru ini memanfaatkan teknik yang sebelumnya diciptakan oleh para peneliti Google untuk mengoptimalkan performa tanpa membutuhkan daya komputasi yang lebih besar. Teknik ini, yang disebut campuran pakar, secara selektif mengaktifkan bagian-bagian dari arsitektur model yang paling cocok untuk menyelesaikan tugas yang diberikan, sehingga lebih efisien dalam pelatihan dan operasional.

Google mengatakan bahwa Gemini Pro 1.5 memiliki kemampuan yang setara dengan Gemini Ultra, yang merupakan produk terkuatnya, dalam banyak tugas, meskipun ukuran model ini jauh lebih kecil. Hassabis mengatakan bahwa tidak ada alasan mengapa teknik yang sama yang digunakan untuk meningkatkan Gemini Pro tidak dapat diterapkan untuk meningkatkan Gemini Ultra.

Versi terbaru dari Gemini Pro akan tersedia bagi para pengembang melalui AI Studio, sebuah lingkungan uji coba untuk menguji kemampuan model, dan kepada sejumlah terbatas pengembang melalui API platform cloud Vertex AI milik Google. Belum ada tanggal rilis umum yang ditentukan.

Google juga meluncurkan alat baru untuk membantu pengembang menggunakan Gemini dalam aplikasi mereka, termasuk cara-cara baru untuk memanfaatkan kemampuan model dalam memecah video dan audio. Perusahaan ini juga mengatakan bahwa mereka akan menambahkan fitur-fitur baru yang didukung oleh Gemini ke alat pengkodean berbasis web mereka, Project IDX, termasuk cara bagi AI untuk melakukan debug dan pengujian kode.

Kecepatan pembaruan Gemini adalah tanda dari persaingan sengit dalam teknologi AI generatif yang dimulai oleh kesuksesan ChatGPT. Pada awal minggu ini, OpenAI mengumumkan bahwa ChatGPT akan memiliki kemampuan untuk mengingat informasi berguna dari percakapan dalam jangka waktu yang lama. Minggu lalu, Google mengubah merek chatbot mereka menjadi Bard dan mengumumkan bahwa Gemini Ultra akan tersedia dengan berlangganan berbayar.

MEMBACA Di Manakah Telepon Trump Berada?

Kecepatan kemajuan dalam AI generatif ini bertentangan dengan kekhawatiran tentang risiko yang mungkin ditimbulkan oleh teknologi ini. Google mengatakan bahwa mereka telah melakukan pengujian yang ekstensif terhadap Gemini Pro 1.5 dan dengan memberikan akses terbatas, mereka dapat mengumpulkan umpan balik tentang potensi risiko. Perusahaan ini juga menyediakan akses kepada para peneliti di AI Safety Institute di Inggris untuk menguji model-model terkuat mereka.

Hassabis mengatakan agar kita mengharapkan lebih banyak kemajuan dalam beberapa bulan mendatang. “Ini adalah kecepatan baru,” katanya, “Saya mencoba membawa semangat startup ke sini.”