Google baru saja memperlihatkan fitur Gemini Live multimodalnya, dan saya khawatir untuk Rabbit dan Humane

Max Buondonno/ZDNET

Pada acara I/O tahunan yang sangat dinantikan, Google minggu ini mengumumkan beberapa fungsionalitas menarik untuk model AI Gemini-nya, terutama kemampuan multimodalnya, dalam video demo yang sudah direkam sebelumnya. 

Meskipun terdengar mirip dengan fitur “Live” di Instagram atau TikTok, Live untuk Gemini mengacu pada kemampuan Anda untuk “menunjukkan” pandangan Anda kepada Gemini melalui kamera Anda, dan memiliki percakapan dua arah dengan AI secara real time. Bayangkan itu sebagai panggilan video dengan teman yang tahu segalanya tentang segalanya. 

Juga: Saya melakukan demo Project Astra Google dan rasanya seperti masa depan AI generatif (sampai akhirnya tidak)

Tahun ini telah melihat teknologi AI semacam ini muncul di sejumlah perangkat lain seperti Rabbit R1 dan pin AI Humane, dua perangkat non-smartphone yang dirilis pada musim semi ini dengan banyak rasa ingin tahu, namun pada akhirnya tidak mengubah dominasi smartphone. 

Sekarang bahwa perangkat-perangkat ini telah mendapat perhatian, AI Gemini Google telah mengambil peran utama dengan AI multimodal yang responsif dan percakapan, dan membawa fokus kembali ke smartphone. 

Google memberikan sedikit bocoran fungsionalitas ini sehari sebelum I/O dalam sebuah tweet yang menunjukkan Gemini secara benar mengidentifikasi panggung di I/O, kemudian memberikan konteks tambahan tentang acara dan mengajukan pertanyaan lanjutan kepada pengguna. 

Dalam video demo di I/O, pengguna mengaktifkan kamera ponsel pintar mereka dan memindai sekitar ruangan, meminta Gemini mengidentifikasi lingkungan sekitarnya dan memberikan konteks tentang apa yang dilihatnya. Yang paling mengesankan bukanlah hanya respons yang diberikan Gemini, tetapi seberapa cepat respons tersebut dihasilkan, yang menghasilkan interaksi yang alami dan percakapan yang ingin Google sampaikan. 

Juga: 3 fitur canggih Gemini baru yang diumumkan di Google I/O 2024

MEMBACA  Tiba di India, Miss Indonesia Audrey Vanessa Bersiap untuk Bersaing di Kontes Miss World 2024

Tujuan di balik Project Astra yang disebut Google adalah untuk membawa teknologi AI canggih ini ke ukuran smartphone; itulah sebagian alasan mengapa, menurut Google, Gemini dibuat dengan kemampuan multimodal sejak awal. Namun, membuat AI merespons dan mengajukan pertanyaan lanjutan secara real-time ternyata menjadi tantangan terbesar. 

Selama demo peluncuran R1 pada bulan April, Rabbit menunjukkan teknologi AI multimodal serupa yang banyak dipuji sebagai fitur yang menarik. Video bocoran Google membuktikan bahwa perusahaan telah bekerja keras dalam mengembangkan fungsionalitas serupa untuk Gemini yang, dari penampilannya, mungkin bahkan lebih baik.

Rabbit R1 juga memiliki fitur AI multimodal, dengan kamera bawaan dalam faktor bentuk kotak.

Kerry Wan/ZDNET

Google tidak sendirian dengan terobosan AI multimodal. Hanya satu hari sebelumnya, OpenAI memperlihatkan pembaruan mereka sendiri selama siaran langsung OpenAI Spring Update, termasuk GPT-4o, model AI terbarunya yang sekarang menggerakkan ChatGPT untuk “melihat, mendengar, dan berbicara.” Selama demo, presenter menunjukkan berbagai objek dan skenario kepada AI melalui kamera ponsel pintar mereka, termasuk masalah matematika yang ditulis dengan tangan, dan ekspresi wajah presenter, dengan AI mengidentifikasi hal-hal ini dengan benar melalui dialog yang serupa dengan pengguna.

Juga: \’Ask Photos\’ AI baru Google memecahkan masalah yang saya hadapi setiap hari

Ketika Google memperbarui Gemini di ponsel nanti tahun ini dengan fitur ini, teknologi perusahaan bisa melonjak ke depan dalam perlombaan asisten AI, terutama dengan nada suara alami dan pertanyaan lanjutan dari Gemini. Namun, tepatnya sejauh kemampuan masih harus dilihat sepenuhnya; perkembangan ini menempatkan Gemini sebagai asisten AI multimodal yang mungkin paling terintegrasi dengan baik. 

Orang-orang yang menghadiri acara I/O Google secara langsung memiliki kesempatan untuk mencoba AI multimodal Gemini untuk ponsel dalam lingkungan “sandbox” yang terkendali di acara tersebut, namun kita dapat mengharapkan pengalaman langsung lebih lanjut tahun ini.

MEMBACA  Microsoft Copilot dan Temu meraih banyak unduhan dengan iklan Super Bowl mereka.