Cara Pixel 10 Pro Menciptakan Kamera Ponsel Paling Cerdas di Dunia: Melihat Proses di Balik Layar Google

Kerry Wan dari ZDNET memotret dengan kamera Google Pixel 10 Pro.

Sabrina Ortiz/ZDNET

Isaac Reynolds telah bekerja di tim Pixel Camera di Google selama hampir satu dekade — sejak telepon Pixel pertama Google diluncurkan pada 2016. Namun, saya rasa cukup adil untuk mengatakan bahwa ia belum pernah seoptimis ini dengan teknologi yang diintegrasikan Google ke dalam kamera ponsel, seperti yang ia rasakan pada Pixel 10 Pro tahun ini. Gelombang baru terobosan AI dalam setahun terakhir memungkinkan Google menggunakan Large Language Models, pembelajaran mesin, dan pencitraan AI generatif untuk membuka kemampuan baru guna mendukung lompatan besar lainnya dalam fotografi ponsel.

Saya mendapat kesempatan untuk bertemu dengan Reynolds saat ia masih belum sepenuhnya pulih dari peluncuran seri Pixel 10 — dan pada saat yang sama, mempersiapkan serangkaian peningkatan kamera berikutnya yang sedang disiapkan tim untuk ponsel Pixel 2026.

Juga: Pixel baru saja melesat meninggalkan iPhone dalam perlombaan fotografi kamera

Saya membanjiri Reynolds dengan segala pertanyaan mendesak saya tentang Pro Res Zoom, Conversational Editing, Camera Coach, model AI, chip Tensor G5, Auto Best Take, serta ambisi besar tim Pixel Camera. Di sisi lain, ia menantang saya dengan informasi yang tidak terduga tentang Telephoto Panoramas, metadata AI C2PA, Guided Frame, dan edukasi publik tentang AI.

Saya berhasil mengungkap banyak hal tentang bagaimana tim Google mampu merekayasa kemajuan sebesar itu dalam sistem kamera Pixel 10 Pro, dan kami menyelami lebih dalam lagi fitur-fitur fotografi baru yang bahkan tidak dibahas Google dalam acara Made by Google 2025 atau di postingan blog mereka.

Inilah catatan reporter saya tentang apa yang saya pelajari.

Misi dari Tim Pixel Camera

“Saya pikir hal utama yang selalu menjadi fokus tim kami adalah apa yang saya sebut masalah [fotografi] yang persisten — cahaya rendah, zoom, rentang dinamis, dan detail,” ujar Reynolds. “Dan setiap generasi [Pixel] menghadirkan teknologi-teknologi baru.”

Camera Coach

Reynolds mencatat, “LLM memiliki jendela konteks yang sangat besar, dan mereka begitu kuat dalam memahami sehingga kami sebenarnya dapat mengajari orang untuk melakukan hal-hal yang tidak bisa dilakukan oleh teknologi.

“Saat ini, teknologi tidak bisa menggerakkan kamera ke bawah sejauh empat kaki. Teknologi tidak bisa memindahkan kamera sejauh 100 yard ke titik pandang yang lebih baik. Ia tidak bisa menyuruhmu untuk berputar 90 derajat. Nah, Camera Coach bisa melakukan hal-hal semacam itu. Jadi itu adalah cara lain kami menggunakan teknologi untuk memecahkan beberapa masalah persisten ini.”

Camera Coach dari Google Pixel 10 Pro.

Sabrina Ortiz/ZDNET

Penyuntingan Konversasional

Salah satu fitur baru paling mengejutkan yang diumumkan Google di Pixel 10 adalah penyuntingan foto konversasional — meskipun secara teknis ini adalah fitur dalam aplikasi Google Photos. Ini memungkinkan Anda menggambarkan secara sederhana apa yang ingin diubah dalam foto, dengan suara atau mengetik, dan AI akan mengurus sisanya. Jadi, Anda dapat menghapus pohon, menengahkan kembali gambar, atau menambahkan lebih banyak awan di langit, misalnya.

Penyuntingan Konversasional di Google Photos.

Google

Sebagaimana dijelaskan Reynolds, “Penyuntingan konversasional menghilangkan seluruh antarmuka dan pada dasarnya adalah fungsi pemetaan dari bahasa alami ke hal-hal yang ada di editor. Jadi Anda bisa berkata, ‘Hapus benda di sebelah kiri,’ dan ia akan mencari tahu apa benda di sebelah kiri itu lalu memanggil Magic Eraser. Anda bisa berkata, ‘Hei, ketika saya di Utah saya ingat batunya lebih merah dari itu’ dan ia hanya akan menambah sedikit kehangatan. Anda bisa berkata, ‘Bisa fokus ke benda di tengah’ dan ia akan memberi vignet kecil di sekitarnya.

“Dan pemetaan itu sangat menghemat waktu. Janji AI bukan hanya bahwa ia akan bersifat informasional, tetapi bahwa ia akan mengambil tindakan untuk Anda. Dan saya pikir ini adalah salah satu kasus paling sempurna di mana AI tidak hanya mengingatkan Anda tentang sesuatu … tetapi melakukannya untuk Anda. Sungguh sangat keren melihat betapa efektifnya ia.

“Ia bahkan memberikan saran. AI akan melihat sebuah gambar dan berkata ‘Saya pikir ada beberapa orang yang tidak dikenal yang mungkin ingin Anda hapus.’ Dan kemudian ia mengisi chip saran kecil ini. Bagian paling lucu dari chip saran adalah ketika Anda mengetuknya, yang dilakukannya hanyalah mengetik ke dalam kotak teks. Itu bukan jalur terpisah. Anda hanya mengetuk chip dan ia menempatkan sesuatu di kotak teks. Anda bisa menuliskannya sendiri. Ia tidak melakukan hal yang jauh berbeda dari yang bisa Anda lakukan… Ia juga memiliki tombol suara, yang sangat keren. Anda bisa langsung berbicara jika ingin. AI menjadi begitu baik dengan kecepatan yang jauh lebih cepat dari yang bisa saya bayangkan, dan saya adalah profesional di bidang ini.”

MEMBACA  Indonesia Menjembatani Global Selatan dan Dunia Maju: PCO

Pro Res Zoom

Sebagai seorang fotografer yang menyukai fotografi zoom, inilah fitur yang paling ingin saya bicarakan dengan Reynolds. Saya mengambil banyak foto dengan ponsel cerdas, tetapi zoom jarak jauh adalah situasi di mana saya paling sering perlu mengeluarkan kamera mirrorless Sony dan lensa 70-200mm saya. Saya telah menulis tentang betapa antusiasnya saya untuk menguji secara menyeluruh Pro Res Zoom, karena ia dapat membantu menghasilkan lebih banyak foto zoom yang dapat digunakan dari ponsel dengan menggunakan AI generatif untuk mengisi kekosongan dalam zoom digital.

Reynolds berkomentar, “Masalah mendasarnya adalah, bagaimana saya mengubah zoom digital di mana Anda memiliki piksel sensor di sudut kanan terjauh, dan kemudian satu lagi di sudut kiri bawah. Dan Anda harus mengisi semua piksel di antaranya. Anda bisa melakukan interpolasi. Anda bisa mengaturnya semua untuk menjadi warna tertentu, seperti rata-ratakan saja. Kami telah berkembang melalui seluruh proses ini. Kami telah melalui denoise multi-frame. Kami telah melalui beberapa generasi berbeda dari upscaler untuk membuat interpolasi yang lebih baik. Kami menggunakan penggabungan multi-frame yang dilakukan blok-demi-blok. Kemajuan besar berikutnya ialah Super Res Zoom, yang beralih dari multi-frame blok-per-blok ke multi-frame per piksel secara probabilistik… Secara paralel, upscaler-nya pun semakin membaik. Dan upscaler generasi terbaru ini merupakan model terbesar yang pernah kami jalankan di Pixel Camera sepanjang masa… Dan ia benar-benar interpolator yang sangat, sangat bagus.

Ia tak cuma bilang yang itu hitam dan yang itu putih, jadi yang di tengah pasti abu-abu. Tapi lebih ke, “Saya tahu piksel hitam itu adalah bagian dari struktur yang lebih besar. Saya tahu struktur yang lebih besar itu sepertinya adalah nat di antara bata pada sebuah fasad. Jadi mungkin warnanya akan tetap hitam sampai titik itu, lalu berubah menjadi merah” — yang jauh lebih pintar daripada sekadar bilang, “Yah, ini hitam dan ini merah. Jadi, entahlah. Mungkin kita campur saja semuanya.” Jadi kita masih mempertahankan objek asli sebagai piksel nyata, lalu kita harus mengisi bagian di antaranya. Dan sekarang model-modelnya sangat, sangat ahli dalam hal itu.

Foto atas diambil dengan zoom 0.5x dan foto bawah dengan framing yang sama pada 100x di Pixel 10 Pro. Google (screenshot oleh Jason Hiner/ZDNET)

Kami telah memiliki serangkaian panjang upscaler, dan ini yang paling mutakhir. Semua upscaler punya artefak. Berbeda upscaler, berbeda pula jenis masalahnya. Kami pernah punya upscaler di masa lalu yang sangat, sangat bagus untuk teks — karena teks punya garis yang sangat tegas — tapi sangat buruk untuk air, karena air pada dasarnya kacau. Upscaler ini punya artefaknya sendiri, dan artefak-artefak itu sangat sulit dikenali oleh mata manusia, karena model barunya sangat hebat dalam menciptakan konten yang 100% autentik terhadap pemandangannya.

Seperti, ya, itu daun di pohon. Persis seperti itulah rupa daun di pohon. Sempurna. Tapi untuk wajah manusia, ada begitu banyak bagian otak manusia yang dikhususkan untuk mengenali wajah, sehingga tingkat artefak apa pun pada dasarnya tidak bisa diterima. Tingkat artefak halus pada daun, Anda mungkin tak akan pernah menyadarinya. Tapi kesalahan sekecil itu pada wajah, Anda langsung menyadarinya — hanya karena kita adalah manusia dan dirancang untuk mengenali manusia lain. Kita makhluk sosial, jadi standar untuk melakukan pekerjaan yang bagus dengan wajah manusia itu sangatlah tinggi.

Akibatnya, ketika Pro Res Zoom mengenali wajah manusia, ia tidak akan menggunakan AI untuk meng-upscale-nya.

Metadata C2PA untuk Melabeli AI

Karena Google kini menjadi bagian dari Coalition for Content Provenance and Authenticity (C2PA), mereka telah mulai menanamkan metadata ke dalam foto-foto untuk menunjukkan apakah AI generatif digunakan untuk membuat foto tersebut dengan menggunakan SynthID, watermark yang dibuat oleh Google DeepMind. Reynolds terlibat sangat dalam dalam proyek untuk menjadikan ini bagian dari Pixel Camera.

Metadata [C2PA] mengidentifikasi apakah ini AI atau bukan, dan pada umumnya memberi tahu Anda riwayat gambar dan kami menanamkannya,” kata Reynolds. “Saya secara personal adalah manajer produk untuk itu. Saya tidak sering lagi mengerjakan hal-hal seperti itu secara langsung, tapi saya mengambil alih yang satu ini karena saya tahu betapa penting, nuansa, dan halusnya hal itu. Dan semakin dalam saya menyelami fitur tersebut, semakin saya sadar betapa sedikitnya orang yang benar-benar tahu apa itu AI atau bukan, apa yang bisa dan tidak bisa dilakukannya, atau seberapa cepat atau lambat perkembangannya.”

Contoh metadata C2PA Google untuk AI. Google

Juga: Google Pixel 10 series hands-on: I did not expect this model to be my favorite

Mengedukasi Publik tentang AI

“Dunia honestly tertinggal dalam hal tidak menyadari betapa bagusnya AI sudah sekarang. Jadi ada beberapa edukasi yang perlu dilakukan. Dan kami menyadari bahwa AI dapat melakukan hal-hal yang saya pikir akan sangat, sangat disukai pengguna jika mereka lebih memahami apa yang terjadi. Jadi bagian dari yang kami lakukan di Pro Res Zoom adalah kami tidak menyentuh wajah. Saya pikir itu akan membuat orang lebih nyaman. Kami juga menunjukkan kepada mereka sebelum dan sesudah — versi dengan upscaler baru dan yang tanpanya, dan Anda bisa memutuskan sendiri, apa yang dilakukan AI? Apakah saya merasa itu dapat diterima atau tidak? Mayoritas besar merasa lebih dari dapat diterima — bahkan sangat disukai. Mereka menginginkan upscale-nya. Tapi mereka tidak akan tahu itu jika tidak melihat side-by-side-nya.

MEMBACA  Langkah cerdas untuk pensiun di usia 40-an dan 50-an

“Lalu kami juga melabelinya dengan content credentials [C2PA] sehingga setiap kali mereka mengirimkan foto itu, orang lain dapat membuat keputusan mereka sendiri tentang, ‘Bagaimana saya membayangkan foto ini? Apakah saya menganggap ini mungkin AI? Atau saya bilang, oh tidak, content credentials-nya ada di sini. Tertulis bukan AI sama sekali. Ini hebat. Saya sekarang punya lebih banyak kepercayaan.’ Dan seiring pengguna belajar lebih banyak, menjadi lebih teredukasi, mendapatkan lebih banyak kenyamanan dan lebih banyak data titik nyata tentang apa itu AI dan apa yang bukan, saya pikir pada akhirnya mereka akan menjadi lebih nyaman dari waktu ke waktu, dan itulah yang sudah kami lihat dengan Pro Res Zoom. Kepuasan pelanggan yang kami ukur sebelum peluncuran sangat bagus untuk fitur itu.

“Dan seiring teknologi semakin membaik, kami akan melakukan lebih banyak. Kami mungkin akan memasukkan hal-hal ini ke lebih banyak mode. Kami akan mendorong zoom menjadi sedikit lebih berkualitas tinggi. Tapi kami benar-benar ingin memastikan bahwa kami melakukan itu sesuai dengan yang diharapkan dan dipahami pengguna. Jadi kami memberi Anda opsi dan pilihan serta transparansi, tapi kami juga mencoba mendorong batas-batas teknologi dengan cara yang menjaga kepuasan pelanggan tetap tinggi.”

Kamera Google Pixel 10 Pro. Sabrina Ortiz/ZDNET

Panorama Telephoto

“Selalu ada fitur-fitur kecil tersembunyi di seluruh aplikasi [kamera],” kata Reynolds kepada saya. Kami membangun lebih banyak fitur daripada yang bisa kami bahas secara realistis.

Salah satu fitur fotografi baru di Pixel 10 Pro yang belum banyak dibahas Google adalah Telephoto Panoramas, atau apa yang mereka sebut dengan penuh kasih “5x tele-panos.”

Fitur ini memungkinkan Anda mengambil gambar lanskap yang lebih sinematik menggunakan lensa zoom, kontrol viewfinder baru, dan kemampuan untuk memotret 360 derajat dengan resolusi hingga 100MP. “Ada sesuatu yang sangat menyenangkan tentang memperbesar dengan lensa Anda lalu menyatukan panorama,” kata Reynolds.

Namun, yang tidak dibahas Google adalah fakta bahwa mereka menggunakan metode yang sepenuhnya baru untuk menangkap gambar-gambar panorama ini.

“Banyak panorama di pasaran, dan punya kami juga sebelumnya, berbasis video,” catat Reynolds. “Artinya, untuk membuat panorama Anda mengambil 100 hingga 1000 gambar, dan dari setiap gambar, Anda menyatukan sepotong kecil irisan vertikal. Itu berarti dua hal. Pertama, artefak yang Anda dapatkan cenderung berupa kurva, peregangan, dan kompresi karena Anda hanya menyatukan irisan demi irisan. Masalah lainnya adalah dalam 30 detik itu, Anda harus memproses [hingga] 1000 gambar.

“Jadi yang kami lakukan adalah kami memutuskan untuk menggunakan input foto, bukan video. Jadi kami akan mengambil lima gambar, bukan ratusan, dan kami akan menyertakan semua pemrosesan kami di belakangnya — HDR Plus penuh, fotografi komputasional penuh, Night Sight — lalu kami menyatukan dengan sedikit overlap. Jadi alih-alih mengambil sepotong kecil dari setiap gambar, yang diambil hanya sedikit overlap. Itu cara [Adobe] Lightroom melakukannya, misalnya. Kami menggunakan metode Lightroom.

“Dan jadi kami mendapatkan Night Sight Panorama. Kami sekarang mendapatkan panorama hingga 100 megapiksel. Kami mendapatkannya dengan detail yang sangat, sangat tinggi dan kami dapat mengaktifkan bagian dari pipeline zoom yang sebelumnya belum tentu bisa dilakukan. Jadi Anda bisa menggunakan zoom 2x, yang pada ponsel Pixel memiliki kualitas optik. Dan Anda bahkan dapat memanggil telefoto 5x [pada Pixel Pro]. Ini adalah panorama berbasis foto yang sangat mengedepankan fotografi komputasional.”

Juga: Google Pixel 10 Pro vs. iPhone 16 Pro: Saya telah mencoba kedua flagship, dan ada pemenang yang jelas

### Guided Frame (fitur aksesibilitas)

Fitur lain yang kurang mendapat perhatian yang ingin ditunjukkan Reynolds adalah Guided Frame.

“Guided Frame adalah fitur aksesibilitas. Jika Anda tunanetra atau memiliki penglihatan rendah, kami menggunakan Gemini untuk memungkinkan Anda membingkai foto apa pun,” kata Reynolds. “Dalam kasus itu, Anda mengarahkan kamera, memanggil Guided Frame, dan ia akan berkata, ‘Ini adalah foto pemandangan hutan dengan beberapa pohon di sebelah kanan dan seseorang di sebelah kiri. Orang tersebut berada dalam bingkai, tersenyum, bagus untuk swafoto. Lalu ia akan mengambil fotonya. Jadi jika Anda tidak bisa melihat layar dengan baik, fitur ini membantu mengambil swafoto dan foto, karena [swafoto] adalah cara orang berkomunikasi. Baik Anda tunanetra, memiliki penglihatan rendah, atau tidak, orang berkomunikasi menggunakan gambar. Jadi ini memberi mereka kemampuan itu.”

MEMBACA  Google Menarik Aplikasi Bawaan Ponsel Pixel Setelah Alarm Keamanan Dinaikkan

### Auto Best Take

Saya juga bertanya kepada Reynolds tentang evolusi Best Take menjadi Auto Best Take tahun ini dan terkejut mengetahui bahwa fitur ini sebenarnya menggunakan lebih banyak pembelajaran mesin.

“Auto Best Take adalah pemrosesan yang jauh lebih tradisional,” komentar Reynolds. “Anda dapat membayangkan ini sebagai pohon keputusan, karena pada dasarnya itulah fitur ini. Anda menekan rana sekali. Jika jepretan itu sempurna dan semua orang tersenyum, semua orang melihat ke kamera, maka bagus. Selesai. Satu gambar.

“Oke, katakanlah itu tidak sempurna. Maka kami akan membuka rana sedikit lebih lama dan kami akan melihat setiap framenya. Jadi itu hingga 150 frame hanya dalam beberapa detik. Jika kami menemukan satu yang lebih baik, kami akan mengambilnya, kami akan menyimpannya, kami akan memprosesnya dalam kualitas HDR Plus penuh… Jadi ketika Anda pergi ke galeri, Anda akan melihat yang kami ambil sebagai yang utama, itu disebut Top Shot. Jadi itu satu langkah turun di pohon keputusan.

“Katakanlah kami melihat 150 frame dan kami tidak dapat menemukan satu yang sempurna, tetapi kami menemukan satu yang hampir sempurna, dan yang kedua yang hampir sempurna tetapi dengan cara yang berbeda, seperti ekspresi wajah yang berbeda. Lalu yang akan kami lakukan adalah kami akan menyimpan keduanya dan kemudian kami akan meneruskannya ke Best Take dan Best Take akan menggabungkannya menjadi satu yang sempurna. Dan Top Shot akan secara sengaja memilih berbagai gambar sehingga setidaknya ada satu foto di mana setiap wajah tersenyum. Jadi jika ada gambar di mana setiap wajah tersenyum setidaknya sekali di suatu tempat dalam set tersebut, maka ia akan melakukan Best Take. Begitu Anda melihat 150 gambar, sebagian besar waktu Anda mendapatkan jepretan yang bagus. Jadi sangat jarang ia benar-benar menjalankan Best Take. Jadi agak aneh kami menyebutnya Auto Best Take, karena pada kenyataannya, kami tidak sering melakukannya, karena itu berada di ujung pohon keputusan.

“Tujuannya adalah Anda menekan rana satu kali dan Anda mendapatkan satu foto dan foto itu sempurna. Tidak masalah bagaimana kami sampai ke sana. Kami tidak ingin Anda harus mengambil tiga foto [gambar grup yang sama] lagi. Karena mengapa Anda mengambil tiga foto acak ketika [AI] dapat melihat 150 foto. Jadi kami katakan cukup tekan [tombol rana] sekali. Beri waktu beberapa detik. Anda akan melihatnya di UI-nya. Ia menggambar kotak di sekitar wajah orang. Kotaknya berubah menjadi emas ketika ia mengira sudah berhasil. Jadi tekan rana, beri beberapa detik, dan lalu lihat hasil yang Anda dapatkan di akhir.”

Kamera selfie Google Pixel 10 Pro.
Sabrina Ortiz/ZDNET

### Perbedaan dengan Tensor G5

Google melakukan langkah besar pada 2025 dengan chip Tensor G5 yang menggerakkan ponsel Pixel 10 — beralih dari yang sebelumnya meminta Samsung membuat chip Tensor-nya ke proses TSMC 3nm yang menggunakan teknologi canggih TSMC untuk meningkatkan kinerja AI. Aku bertanya pada Reynolds tentang dampaknya.

“[Peningkatan dengan Tensor G5] merupakan salah satu peningkatan paling signifikan yang pernah saya lihat dalam hal latensi pemrosesan,” ujarnya. “Versi awal Pro Res Zoom membutuhkan waktu sekitar dua menit [untuk diproses]. Dan pada akhirnya, setelah mereka menerapkannya pada Tensor G5 dan semua bug telah diperbaiki, waktu itu turun menjadi hanya beberapa detik… Jadi TPU Tensor G5 60% lebih kuat, dan kami benar-benar dapat melihatnya.”

Juga: [Tautan artikel tentang rekomendasi 5 phone selain Pixel 10 Pro]

**Model-model AI yang Menggerakkan Fotografi Pixel**

Mengingat begitu banyak fitur baru terpenting Pixel 10 digerakkan oleh kemajuan AI, saya ingin tahu lebih lanjut tentang bagaimana tim Kamera Pixel berkolaborasi dengan kapabilitas AI internal Google.

“Bukannya ada satu Gemini yang monolitik,” kata Reynolds. “Ini sangat hati-hati disesuaikan dan diuji untuk satu kasus penggunaan tertentu pada satu waktu… Ada jauh lebih banyak versi Gemini di dalam [Google] daripada yang bisa Anda lihat di luar. Dan kemudian Anda harus memutuskan, apakah saya akan memerintah Gemini ini atau menyempurnakannya? Semuanya sangat, sangat khusus untuk implementasi tertentu.” Sebagai contoh, tambahnya, “Magic Eraser itu generatif, tapi ia bukan Gemini.”

**Pemikiran Akhir**

Google adalah satu-satunya dari sekitar selusin perusahaan di dunia yang membangun model AI mutakhir yang juga membuat ponsel pintarnya sendiri. Dan dengan Pixel 10 Pro, dampaknya mulai terlihat.