Teknologi Baru Apple untuk Membaca Gerak Bibir: Sinyal Aneh ke Mana Kita Melangkah

Bayangkan Anda membunyikan kata-kata secara diam-diam hanya dengan gerakan bibir, lalu asisten AI Anda memahami apa yang ingin Anda ucapkan. Teknologi ini mungkin hadir melalui kacamata, earbud, atau kamera ponsel Anda. Apple baru saja membeli sebuah perusahaan bernama Q.ai yang tengah berupaya mewujudkan hal persis itu. Kedengarannya aneh dan seperti fiksi ilmiah, namun bagi saya sebagai seseorang yang telah lama mengamati perkembangan kacamata pintar dan *wearables*, ini juga terdengar sangat familiar.

Investasi Apple pada startup asal Israel ini sama sekali tidak kecil. Nilai akuisisinya sekitar $2 miliar, menurut laporan asli dari Financial Times dan media seperti Reuters. Ini merupakan akuisisi terbesar Apple sejak pembelian Beats yang menggemparkan satu dekade lalu. Namun, berbeda dengan Beats, hampir tidak ada yang kenal dengan Q.ai. Setidaknya, belum. Potensi antarmuka baru ini bisa sangat kuat. Sebuah kunci penting lagi ditambahkan ke dalam teka-teki antarmuka teknologi personal masa depan yang terus berkembang.

Saya sendiri belum pernah bertemu atau melihat demo dari Q.ai, tetapi salah satu pendirinya, Aviad Maizels, juga menciptakan PrimeSense—teknologi berbasis inframerah yang mendukung kemampuan pemindaian 3D ruangan pada kamera Microsoft Kinect untuk Xbox beberapa tahun silam. PrimeSense diakuisisi oleh Apple pada 2013. Teknologi itu kemudian menjadi serangkaian kamera TrueDepth untuk Face ID, dan juga terdapat di dalam Apple Vision Pro untuk pelacakan tangan dalam jarak dekat.

Berdasarkan laporan mengenai patennya, Q.ai memungkinkan pelacakan gerakan halus wajah dan ekspresi emosi dengan sensor optik, serta dapat memfasilitasi input perintah diam ke antarmuka AI atau pengenalan isyarat wajah yang samar. Situs Israel GeekTime memberikan detail lebih lanjut, menyebut bahwa teknologi ini akan mengukur pergerakan otot dan bibir serta mungkin perlu ditempatkan dekat mulut.

MEMBACA 8 Hadiah Mengagumkan untuk Rekan Kerja Anda (2024)

CNET menghubungi Apple dan Q.ai untuk mendapatkan komentar, tetapi belum mendapat tanggapan langsung.

Vision Pro memang sudah bisa melacak gerakan wajah, tetapi belum dapat mengubah gerakan bibir menjadi ucapan.

Numi Prasarn/CNET

Bagian dari Sistem Antarmuka Baru untuk Wearables dan Kacamata?

Saya baru saja menulis tentang bagaimana Apple sudah menunjukkan tanda-tanda bergerak menuju ekosistem *wearables* AI yang terhubung: pin, kacamata, earbud, arloji, atau kombinasinya. Perangkat *wearable* apa pun berpotensi memanfaatkan teknologi yang sedang dikembangkan Q.ai. Tampaknya *headphone* dan kacamata adalah dua bidang yang paling memungkinkan. Ditambah dengan laporan bahwa generasi AirPods berikutnya akan dilengkapi kamera inframerah, potongan-potongan puzzle ini semakin siap untuk disatukan.

Bahkan *headset* realitas campuran seperti Vision Pro bisa memanfaatkan teknologi Q.ai. Vision Pro sudah mampu mengenali ekspresi wajah dengan kamera pelacak mata, kamera yang menghadap ke bawah, dan sensor inframerah. Namun, interaksi dengan Vision Pro masih terasa sedikit canggung bagi saya. Saya menggunakan mata untuk menatap dan tangan untuk mencubit, tetapi saya harus mengucap “Hey Siri” untuk memberikan perintah audio. Saya lebih suka jika interaksi terasa lebih alami dan halus. Mungkin akuisisi baru ini bisa membantu.

Seperti dicatat oleh seniman dan peneliti realitas tertambah Helen Papagiannis dalam *newsletter*-nya, “Pin AI Apple yang menjadi rumor lebih masuk akal bukan sebagai produk mandiri, melainkan sebagai simpul dalam ekosistem Apple, yang memanfaatkan sensor, kecerdasan, dan konteks bersama di berbagai perangkat yang bekerja sama dengan AirPods dan, nantinya, kacamata.”

Kacamata pintar yang ada seperti milik Meta dan yang akan datang dari Google masih bertumpu pada suara untuk interaksi. Melakukannya secara diam-diam bisa menjadi keunggulan besar, tetapi aspek lain di luar suara juga mulai muncul. Meta memiliki gelang neural yang dikenakan di pergelangan tangan, dengan tujuan akhir menambahkan pelacakan mata ke kacamata. Kacamata Google juga akan bekerja dengan gestur berbasis arloji.

MEMBACA Tunggu Pengumuman Resmi, Apabila Sudah Final Kita Terima

Saya juga cukup khawatir tentang privasi. Teknologi apa pun yang dapat membaca bibir dan mengenali ekspresi halus berpotensi digunakan untuk melacak dan menyadap intensi Anda dari kejauhan. Bagaimana teknologi ini dapat digunakan dengan cara yang privat dan andal? Atau justru dengan hanya perlu membunyikan permintaan secara diam akan lebih privat daripada perintah suara yang saya gunakan sekarang?

Lebih dari Sekadar Membaca Bibir?

Saya tetap menginginkan antarmuka yang sama sekali tidak memerlukan ucapan. Teknologi gelang neural berbasis elektromiografi dari Meta mengisyaratkan cara yang lebih kompleks di mana gestur pergelangan tangan dapat berkembang untuk bekerja dengan kacamata dan earbud. Perusahaan Israel lainnya, Wearable Devices, memiliki gelang neural sendiri bernama Mudra, dan bertujuan memperluas kemampuan input halusnya, yang berasal dari impuls listrik neuron motorik.

Elektroensefalografi, yang mengukur sinyal otak, adalah arah lain. Meski beberapa perusahaan mengeksplorasi EEG untuk antarmuka otak-komputer, teknologi ini masih terutama merupakan sistem sensor yang berfokus pada aplikasi kesehatan dan medis.

Masukkan teknologi Q.ai ke dalam daftar antarmuka yang mungkin membuat komputer *wearable* yang kita gunakan terasa lebih terhubung dengan kita. Itu aneh dan mengerikan, tetapi juga ke arah yang saya rasa sudah dituju oleh sebagian besar perusahaan kacamata, *wearables*, dan VR/AR. Ini bukanlah sebuah penyimpangan. Langkah Apple adalah bagian lain dari tren tersebut.

Bagian dari Sistem Antarmuka Baru untuk *Wearables* dan Kacamata?

Lebih dari Sekadar Membaca Bibir?

Bagian dari Sistem Antarmuka Baru untuk Wearables dan Kacamata?