Google DeepMind telah meluncurkan model AI baru dalam public preview yang dirancang untuk menavigasi browser web layaknya manusia.
Dibangun di atas Gemini 2.5 Pro, model Penggunaan Komputer baru ini dapat menjalankan tugas seperti mengeklik, mengetik, dan menggulir langsung di dalam halaman web. Cukup berikan perintah dalam bahasa natural, misalnya, "Buka Wikipedia, cari ‘Atlanta’, dan rangkum sejarah mitos tersebut dalam pemikiran Barat."
Model ini akan secara mandiri mengambil URL dan screenshot situs yang diminta untuk menganalisis antarmuka pengguna, lalu melakukan tugas langkah demi langkah sambil menjelaskan alasan dan tindakannya. Ia juga dapat meminta konfirmasi untuk tugas sensitif, seperti melakukan pembelian.
Kemampuan ini menyusul rilis model web-browsing serupa dari OpenAI dan Anthropic. Model ini beroperasi dengan fungsi looping iteratif yang memungkinkannya menyimpan riwayat tindakan terbaru dalam suatu antarmuka untuk menentukan langkah selanjutnya.
Menurut Google, model baru ini mengungguli alat serupa dari Anthropic dan OpenAI dalam hal akurasi dan latensi di beberapa benchmark. Model ini tersedia melalui Gemini API di Google AI dan Vertex AI, serta versi demo via Browserbase.
Google juga mengakui kelemahan model ini, seperti hallusinasi, serta keterbatasan dalam pemahaman kausal dan penalaran logis yang kompleks, yang merupakan ciri khas sebagian besar model AI saat ini.