Gemini 3.1 Pro Resmi Hadir, Kemampuan Bernalar Melonjak Dua Kali Lipat

Google
Ikuti ZDNET: Tambahkan kami sebagai sumber pilihan di Google.

Poin Penting ZDNET
Gemini 3.1 Pro kini telah tersedia.
Model ini membangun kemajuan tolok ukur yang telah diletakkan Gemini 3 untuk Google.
Pada akhirnya, kemampuan model bersifat relatif, menurut satu pakar.

Minggu demi minggu, hadir lagi model yang "lebih cerdas" — kali ini dari Google, yang baru saja meluncurkan Gemini 3.1 Pro.

Gemini 3 telah mengungguli beberapa model pesaing sejak dirilis November lalu, mengalahkan Copilot dalam beberapa tes tugas internal kami, dan secara umum mendapat pujian dari pengguna. Google menyatakan model Gemini terbaru yang diumumkan Kamis ini mencapai "kinerja penalaran lebih dari dua kali lipat dibanding 3 Pro" dalam pengujian, berdasarkan skor 77,1% pada tolok ukur ARC-AGI-2 untuk "pola logika yang benar-benar baru."

Juga: Gemini vs. Copilot: Saya membandingkan kedua alat AI pada 7 tugas sehari-hari, dan pemenangnya jelas

Model terbaru ini menyusul "peningkatan besar" untuk Gemini 3 Deep Think pekan lalu, yang diklaim memiliki kemampuan baru dalam kimia dan fisika di samping pencapaian baru dalam matematika dan pengkodean, menurut Google. Perusahaan mengatakan peningkatan Gemini 3 Deep Think dibangun untuk menangani "tantangan penelitian yang sulit — di mana masalah sering kali tidak memiliki batasan yang jelas atau solusi tunggal yang benar dan datanya acapkali berantakan atau tidak lengkap." Google menyebut Gemini 3.1 Pro mendasari investasi berat sains tersebut, dengan menjuluki model tersebut sebagai "kecerdasan inti yang ditingkatkan yang memungkinkan terobosan-terobosan itu."

Akhir tahun lalu, Gemini 3 mencetak skor tertinggi baru sebesar 38,3% di antara semua model yang tersedia saat ini pada tes tolok ukur Ujian Terakhir Kemanusiaan (Humanity’s Last Exam/HLE). Dikembangkan untuk mengatasi tolok ukur standar industri yang semakin mudah dikalahkan dan mengukur kemajuan model lebih baik terhadap kemampuan manusia, HLE dimaksudkan sebagai tes yang lebih ketat, meski tolok ukur saja tidak cukup untuk menentukan performa.

MEMBACA  Reboot Little Shop of Horrors Mungkin Akhirnya Berkembang Menjadi Kehidupan

Menurut Google, Gemini 3.1 Pro kini mengalahkan skor tersebut dengan 44,4% — meskipun peningkatan Deep Think secara teknis mencetak skor lebih tinggi di 48,4%. Demikian pula, pembaruan Deep Think mencetak 84,6% — lebih tinggi dari 77,1% Gemini 3.1 Pro yang disebutkan sebelumnya — pada tolok ukur logika ARC-AGI-2.

Juga: Proses pembuatan Gemini 3 – bagaimana pendekatan lambat dan mantap Google memenangkan perlombaan AI (untuk saat ini)

Meski demikian, Claude Opus 4.6 dari Anthropic masih menduduki puncak papan peringkat kemampuan teks Pusat Keamanan AI (Center for AI Safety/CAIS) (untuk penalaran dan kueri berbasis teks lainnya), yang merata-ratakan skor tolok ukur relevan lainnya di luar HLE. Opus 4.5, Sonnet 4.5, dan Opus 4.6 Anthropic juga mengalahkan Gemini 3 dalam hal keamanan, menurut papan peringkat penilaian risiko CAIS.

Mengelola Antusiasme

Terlepas dari rekor tolok ukur, siklus hidup model tidak berakhir dengan rilis yang menggemparkan. Pada laju perkembangan AI saat ini, model-model baru hanya mengesankan secara relatif terhadap pesaingnya — waktu dan pengujian akan menunjukkan di mana 3.1 Pro unggul atau gagal. Gemini 3 memberikan fondasi kuat untuk model baru ini, namun itu mungkin hanya bertahan hingga lab berikutnya merilis peningkatan mutakhir.

Juga: Rencana AI Google untuk mengakhiri kerja keras pengembang Android – dan mempercepat inovasi

"Angka tes seolah menyiratkan bahwa ada peningkatan substansial dibanding Gemini 3, dan Gemini 3 sudah cukup bagus, tapi saya kira kita tidak akan benar-benar tahu segera, dan model ini belum tersedia kecuali untuk paket yang lebih mahal," ujar editor kontributor senior ZDNET David Gewirtz mengenai rilis ini. "GPT 5.3 juga belum benar-benar diungkap, dan saya kira ketika waktunya tiba, kita akan memiliki serangkaian peningkatan yang lebih universal untuk dievaluasi kembali."

MEMBACA  Petunjuk dan Jawaban TNY Connections Edisi Olahraga, 21 Desember #454

Sambil menunggu model itu rilis, Gewirtz menyelidiki GPT-5.3-Codex, rilis spesifik pengkodean terbaru OpenAI yang terkenal membantu membangun dirinya sendiri.

Cobalah Sendiri

Para pengembang dapat mengakses Gemini 3.1 Pro dalam pratinjau hari ini melalui API di AI Studio Google, Android Studio, Google Antigravity, dan Gemini CLI. Pelanggan perusahaan dapat mencobanya di Vertex AI dan Gemini Enterprise, dan pengguna biasa dapat menemukannya di NotebookLM serta aplikasi Gemini.

Tinggalkan komentar