Google DeepMind telah meluncurkan model AI baru dalam tahap pratinjau publik yang dirancang untuk menavigasi browser web seperti layaknya manusia.
Dibangun di atas Gemini 2.5 Pro, model Computer Use terbaru ini mampu menjalankan tugas-tugas seperti mengklik, mengetik, dan menggulir langsung di dalam halaman web. Pengguna hanya perlu memberikan perintah dalam bahasa alami—misalnya, "Buka Wikipedia, cari ‘Atlantis’, dan ringkas sejarah mitos tersebut dalam pemikiran Barat." Model ini akan secara mandiri mengambil URL dan tangkapan layar situs yang diminta untuk menganalisis antarmuka pengguna, lalu melakukan tugas yang diminta langkah demi langkah, sambil menjelaskan alasan dan tindakannya dalam kotak teks yang mudah dilihat. Ia juga mungkin meminta konfirmasi untuk tugas yang sensitif, seperti melakukan pembelian.
Kemampuan Gemini 2.5 Computer Use ini mengikuti rilis model penjelajah web serupa dari OpenAI dan Anthropic. Cara kerjanya menggunakan fungsi loop iteratif yang memungkinkannya menyimpan catatan aksi terbaru dalam sebuah antarmuka dan menentukan langkah selanjutnya. Semakin banyak tugas yang dilakukannya di suatu situs, semakin baik konteksnya, dan semakin mulus kinerjanya.
Menurut Google, model ini unggul dalam hal akurasi dan latensi dibandingkan alat serupa dari pesaingnya. Model ini tersedia melalui Gemini API di Google AI dan Vertex AI, serta versi demo lewat Browserbase. Untuk keamanan, tersedia kontrol yang dapat mencegahnya melewati CAPTCHA atau membahayakan keamanan data.
Namun, Google juga mengakui kelemahan model ini, seperti hallucinations dan keterbatasan dalam pemahaman kausal serta penalaran logika yang kompleks, yang merupakan tantangan umum pada sebagian besar model AI canggih saat ini.