Google Luncurkan Gemini 3.1 Pro: Benchmark dan Cara Mencobanya

Google merilis model penalaran inti terbarunya, Gemini 3.1 Pro, pada Kamis. Perusahaan menyatakan bahwa Gemini 3.1 Pro mencapai kinerja terverifikasi dua kali lipat dibandingkan 3 Pro pada ARC-AGI-2, sebuah patokan populer yang mengukur logika berpikir sebuah model.

Google awalnya meluncurkan Gemini 3 dan 3 Pro pada November lalu, dan perilisan baru ini memperlihatkan seberapa cepat perusahaan AI memperkenalkan model yang baru dan terperbarui. Gemini 3.1 Pro kini menjadi model inti yang menggerakkan Gemini dan berbagai alat AI Google, seperti Gemini 3 Deep Think. Google mengatakan model ini dirancang untuk memberikan solusi yang lebih kreatif.

“3.1 Pro dirancang untuk tugas-tugas di mana jawaban sederhana tidaklah cukup, mengambil penalaran tingkat lanjut dan menjadikannya berguna untuk tantangan terberat Anda,” begitu pernyataan dalam sebuah postingan blog Google. “Kecerdasan yang ditingkatkan ini dapat membantu dalam aplikasi praktis—entah Anda mencari penjelasan visual yang jelas tentang topik kompleks, cara mensintesis data menjadi satu tampilan, atau menghidupkan proyek kreatif.”

LIHAT JUGA:

GPT-5.2 vs Gemini 3 — Perbandingan kedua model berat ini berdasarkan patokan, harga, dan fitur

Berikut semua yang kita ketahui sejauh ini tentang Gemini 3.1 Pro, termasuk perbandingannya dengan model terbaru dari Anthropic dan OpenAI, serta cara mencobanya sendiri.

Cara Mencoba Gemini 3.1 Pro

Mulai hari ini, Google meluncurkan Gemini 3.1 Pro di Aplikasi Gemini, APIA Gemini, dan di Notebook LM. Pengguna gratis dapat mencoba 3.1 Pro di aplikasi Gemini, tetapi pengguna berbayar dalam paket Google AI Pro dan AI Ultra akan mendapat kuota penggunaan yang lebih tinggi. Di dalam Notebook LM, hanya pengguna berbayar ini yang akan memiliki akses ke 3.1 Pro, setidaknya untuk saat ini. Pengembang perangkat lunak dan pengguna perusahaan juga dapat mengakses model inti baru ini melalui AI Studio, Antigravity, Vertex AI, Gemini Enterprise, Gemini CLI, serta Android Studio.

MEMBACA  Jawaban Teka-teki Silang Mini NYT untuk 31 Maret

Gemini 3.1 Pro telah tersedia lebih dulu bagi editor Mashable yang menggunakan Gemini. Untuk mencobanya sendiri, kunjungi Gemini di desktop atau buka aplikasi Gemini di ponsel.

Kiri: Dua hasil dari perintah animasi yang sama. Kredit: Google

Kanan: Kredit: Google


Mengapa Gemini 3.1 Pro Penting

Ketika Google merilis Gemini 3 Pro pada November lalu, model tersebut begitu impresif sehingga dikabarkan menyebabkan CEO OpenAI Sam Altman mendeklarasikan ‘kode merah’. Saat Gemini 3 Pro melesat ke puncak papan peringkat AI, OpenAI dilaporkan mulai kehilangan pengguna ChatGPT ke Gemini. Model inti ChatGPT terbaru, GPT-5.2, telah terjun bebas dalam peringkat di papan peringkat seperti Arena (sebelumnya dikenal sebagai LMArena), kehilangan banyak tanah kepada pesaing seperti Google, Anthropic, dan xAI.


Tweet ini saat ini tidak tersedia. Mungkin sedang dimuat atau telah dihapus.

Gemini 3 Pro sudah mengungguli GPT-5.2 di banyak patokan, dan dengan model berpikir yang lebih maju, Gemini dapat melaju lebih jauh di depan.

Gemini 3.1 Pro: Kinerja dalam Patokan

Google merilis data kinerja patokan yang menunjukkan bahwa Gemini 3.1 Pro mengungguli model Gemini sebelumnya, Claude Sonnet 4.6, Claude Opus 4.6, dan GPT-5.2. Namun, model pengkodean baru OpenAI, GPT-5.3-Codex, mengalahkan Gemini 3.1 Pro pada patokan terverifikasi SWE-Bench Pro, menurut Google sendiri.

Beberapa sorotan penting dari hasil patokan Gemini 3.1 Pro meliputi:

  • 44,4 persen pada Humanity’s Last Exam, dibandingkan 40,0 persen untuk Claude Opus 4.6 dan 34,5 persen untuk GPT-5.2
  • 77,1 persen pada ARC-AGI-2, dibandingkan 31,1 persen untuk Gemini 3 Pro, 68,8 persen untuk Claude Opus 4.6, dan 52,9 persen untuk GPT-5.2
  • 94,3 persen pada GPQA Diamond, dibandingkan 91,9 persen untuk Gemini 3 Pro, 91,3 persen untuk Claude Opus 4.6, dan 92,4 persen untuk GPT-5.2
  • 80,6 persen pada SWE-Bench Verified, dibandingkan 76,2 persen untuk Gemini 3 Pro, 80,8 persen untuk Claude Opus 4.6, dan 80,0 persen untuk GPT-5.2
  • 54,2 persen pada SWE-Bench Pro (Publik), dibandingkan 43,3 persen untuk Gemini 3 Pro, 55,6 persen untuk GPT-5.2, dan 56,8 persen untuk GPT-5.3-Codex
  • 92,6 persen pada MMLU, dibandingkan 91,1 persen untuk Claude Opus 4.6 dan 89,6 persen untuk GPT-5.2

Google merilis sebuah gambar yang menampilkan hasil patokan lengkap untuk Gemini 3.1 Pro:


Tweet ini saat ini tidak tersedia. Mungkin sedang dimuat atau telah dihapus.


Keterangan: Ziff Davis, perusahaan induk Mashable, pada April 2025 mengajukan gugatan terhadap OpenAI, dengan tuduhan melanggar hak cipta Ziff Davis dalam melatih dan mengoperasikan sistem AI-nya.

MEMBACA  Orb Pemindai Mata Sam Altman Memiliki Tampilan Baru — dan Akan Datang Langsung ke Pintu Anda

Tinggalkan komentar