Beberapa minggu setelah mengungkapkan Gemini 2.5 Pro, Google melanjutkan ke model terbaiknya berikutnya.
Pada hari Kamis, perusahaan merilis “versi awal” Gemini 2.5 Flash dalam pratinjau di API Gemini, AI Studio, dan Vertex AI. Model ini memiliki batas pengetahuan hingga Januari 2025. Ini dapat mengambil teks, gambar, video, dan audio prompts, dan memiliki jendela konteks satu juta token.
Google mengatakan versi baru ini memperluas Flash 2.0 dengan penalaran yang ditingkatkan, tetapi “tanpa mengorbankan kecepatan atau biayanya yang terkenal.” Model penalaran menghabiskan lebih banyak waktu “berpikir” – atau menafsirkan sebuah pertanyaan – sebelum merespons, yang menghasilkan output yang lebih teliti dan langsung yang, idealnya, lebih sesuai dengan kebutuhan pengguna, dibandingkan dengan model-model sebelumnya yang memprioritaskan kecepatan. Model-model yang berpenalaran juga lebih baik dalam memberikan solusi yang akurat untuk masalah atau tugas multi-langkah.
Gemini 2.5 Flash tampil kuat pada Hard Prompts di ChatBot Arena, hanya kalah dari 2.5 Pro, Google mencatat dalam pengumuman.
Merujuk pada model baru ini sebagai yang paling hemat biaya, Google mencatat bahwa 2.5 Flash “memungkinkan pengembang mengonfigurasi jumlah berpikir yang dilakukannya untuk memaksimalkan kinerja.” Ini memberikan para pengembang “anggaran berpikir,” atau kekuatan untuk membayar penalaran hanya ketika mereka membutuhkannya. Dengan penalaran aktif, harga output melonjak dari 60 sen per satu juta token menjadi $3.50.
Jika pengembang tidak memberikan model anggaran, model tersebut menentukan kebutuhan berpikir pertanyaan itu sendiri dengan mengevaluasi permintaan untuk kompleksitas. Misalnya, model akan mengidentifikasi prompts dengan kebutuhan penalaran minimal – seperti “Berapa banyak negara bagian di AS?” – secara terpisah dari masalah matematika multi-langkah. Google mencatat bahwa untuk mereplikasi latensi dan biaya Flash 2.0, pengembang harus mengatur anggaran menjadi 0.
Gemini 2.5 Flash mendapat skor 12% pada Humanity’s Last Exam (HLE), sebuah benchmark alternatif baru untuk tes industri yang telah menjadi terlalu mudah bagi model-model yang berkembang pesat. Skor ini lebih unggul dari model pesaing, termasuk Claude 3.7 Sonnet dan DeepSeek R1, tetapi tidak melebihi o4-mini baru dari OpenAI, yang mencapai 14% pada tes tersebut.
Anda dapat mencoba Gemini 2.5 Flash dalam pratinjau melalui API Gemini di Google AI Studio dan Vertex AI.
Ingin cerita lebih lanjut tentang AI? Daftar untuk Innovation, buletin mingguan kami.