Getty ImagesDalam kelompok, orang-orang memfilter omong kosong di sekitar mereka – dan sekarang teknologi juga bisa melakukannyaIni adalah masalah \”pesta koktail\” yang abadi – berdiri di ruangan penuh dengan orang, minuman di tangan, mencoba mendengar apa yang dikatakan tamu Anda.Ini sebenarnya, manusia sangat terampil dalam menjalankan percakapan dengan satu orang sambil menyaring suara bersaing.Namun, mungkin mengejutkan, ini adalah keterampilan yang teknologi baru-baru ini belum bisa tiru.Dan itu penting ketika menggunakan bukti audio dalam kasus pengadilan. Suara di latar belakang bisa membuat sulit untuk memastikan siapa yang berbicara dan apa yang dikatakan, yang berpotensi membuat rekaman menjadi tidak berguna.Insinyur listrik Keith McElveen, pendiri dan chief technology officer Wave Sciences, menjadi tertarik pada masalah ini ketika ia bekerja untuk pemerintah AS dalam kasus kejahatan perang.\”Apa yang kami coba cari tahu adalah siapa yang memerintahkan pembantaian warga sipil. Beberapa bukti termasuk rekaman dengan sekelompok suara yang berbicara semua sekaligus – dan saat itulah saya belajar apa itu \”masalah pesta koktail\”,\” katanya.\”Saya telah berhasil menghilangkan suara seperti suara mobil atau AC atau kipas dari ucapan, tetapi ketika saya mulai mencoba menghilangkan ucapan dari ucapan, ternyata bukan hanya masalah yang sangat sulit, itu adalah salah satu masalah sulit klasik dalam akustik. \”Suara memantul di sekitar ruangan, dan itu sangat sulit secara matematis untuk diselesaikan.\”Paul CheneyKeith McElveen mendirikan Wave Sciences pada tahun 2008 untuk fokus pada \”masalah pesta koktail\”Jawabannya, katanya, adalah menggunakan AI untuk mencoba menandai dan menyaring semua suara bersaing berdasarkan dari mana asalnya di ruangan.Tidak hanya berarti orang lain yang mungkin sedang berbicara – ada juga sejumlah gangguan dari cara suara memantul di sekitar ruangan, dengan suara pembicara target terdengar baik secara langsung maupun tidak langsung.Di ruang anekoik sempurna – yang benar-benar bebas dari gema – satu mikrofon per pembicara akan cukup untuk menangkap apa yang semua orang katakan; tetapi di ruangan nyata, masalah ini memerlukan satu mikrofon untuk setiap suara yang dipantulkan juga.Tuan McElveen mendirikan Wave Sciences pada tahun 2009, berharap untuk mengembangkan teknologi yang dapat memisahkan suara yang tumpang tindih. Awalnya perusahaan menggunakan sejumlah besar mikrofon dalam apa yang dikenal sebagai array beamforming. Namun, umpan balik dari mitra komersial potensial adalah bahwa sistem memerlukan terlalu banyak mikrofon dengan biaya yang terlibat untuk memberikan hasil yang baik dalam banyak situasi – dan tidak akan berfungsi sama sekali dalam banyak situasi lainnya.\”Komentar umum adalah bahwa jika kami bisa menemukan solusi yang mengatasi kekhawatiran itu, mereka akan sangat tertarik,\” kata Tuan McElveen.Dan, tambahnya: \”Kami tahu pasti harus ada solusi, karena Anda bisa melakukannya dengan hanya dua telinga.\”Perusahaan akhirnya menyelesaikan masalah setelah 10 tahun penelitian yang didanai secara internal dan mengajukan aplikasi paten pada September 2019.Keith McElveenWave Sciences butuh 10 tahun untuk menyelesaikan \”masalah pesta koktail\”Apa yang mereka temukan adalah sebuah AI yang dapat menganalisis bagaimana suara memantul di sekitar ruangan sebelum mencapai mikrofon atau telinga.\”Kami menangkap suara saat tiba di setiap mikrofon, mengikuti jejak untuk mengetahui dari mana asalnya, dan kemudian, pada dasarnya, kami menekan segala suara yang tidak mungkin berasal dari tempat duduk orang tersebut,\” kata Tuan McElveen. Efeknya bisa dibandingkan dalam beberapa hal dengan saat kamera fokus pada satu subjek dan memburamkan latar depan dan latar belakang.\”Hasilnya mungkin tidak terdengar jelas saat Anda hanya dapat menggunakan rekaman yang sangat berisik untuk belajar, tetapi tetap luar biasa.\”Teknologi ini pertama kali digunakan dalam kasus forensik dunia nyata dalam kasus pembunuhan di AS, di mana bukti yang dapat diberikan membuktikan sentral bagi vonis.Dua pembunuh bayaran ditangkap karena membunuh seorang pria, FBI ingin membuktikan bahwa mereka telah disewa oleh sebuah keluarga yang sedang mengalami perselisihan hak asuh anak. FBI mengatur agar keluarga percaya bahwa mereka sedang diancam karena keterlibatan mereka – dan kemudian duduk kembali melihat reaksi.Sementara teks dan panggilan telepon relatif mudah bagi FBI untuk diakses, pertemuan secara langsung di dua restoran adalah masalah lain. Namun, pengadilan memberikan izin penggunaan algoritma Wave Sciences, yang berarti bahwa audio yang semula tidak dapat diterima menjadi bukti kunci.Sejak itu, laboratorium pemerintah lainnya, termasuk di Inggris, telah mengujinya. Perusahaan sekarang memasarkan teknologi tersebut ke militer AS, yang telah menggunakannya untuk menganalisis sinyal sonar.Teknologi ini juga bisa digunakan dalam negosiasi sandera dan skenario bunuh diri, kata Tuan McElveen, untuk memastikan kedua sisi percakapan dapat didengar – bukan hanya negosiator dengan megafon.Pada akhir tahun lalu, perusahaan merilis aplikasi perangkat lunak menggunakan algoritma pembelajarannya untuk digunakan oleh laboratorium pemerintah yang melakukan forensik audio dan analisis akustik. Getty ImagesPada akhirnya Wave ingin meluncurkan versi produknya untuk digunakan dalam speaker pintar Pada akhirnya mereka bertujuan untuk memperkenalkan versi produk yang disesuaikan untuk digunakan dalam perangkat perekam audio, antarmuka suara untuk mobil, speaker pintar, realitas tambahan dan virtual, sonar, dan perangkat bantu dengar. Jadi, misalnya, jika Anda berbicara dengan mobil atau speaker pintar Anda tidak akan masalah jika ada banyak kebisingan di sekitar Anda, perangkat tersebut masih bisa memahami apa yang Anda katakan. AI sudah digunakan dalam bidang forensik lain juga, menurut pendidik forensik Terri Armenta dari Akademi Ilmu Forensik.\”Model ML [machine learning] menganalisis pola suara untuk menentukan identitas pembicara, sebuah proses yang sangat berguna dalam penyelidikan kriminal di mana bukti suara perlu diotentikasi,\” katanya. \”Selain itu, alat AI dapat mendeteksi manipulasi atau perubahan dalam rekaman audio, memastikan integritas bukti yang disajikan di pengadilan.\”Dan AI juga telah mulai masuk ke aspek lain analisis audio. BoschSamarjit Das dengan SoundSee yang dapat memprediksi kerusakan mobil sebelum terjadiBosch memiliki teknologi bernama SoundSee, yang menggunakan algoritma pemrosesan sinyal audio untuk menganalisis, misalnya, suara motor untuk memprediksi kerusakan sebelum terjadi.\”Kemampuan pemrosesan sinyal audio tradisional kurang mampu memahami suara seperti yang kita manusia lakukan,\” kata Dr Samarjit Das, direktur riset dan teknologi di Bosch USA.\”AI audio memungkinkan pemahaman yang lebih dalam dan interpretasi semantik dari suara benda di sekitar kita lebih baik daripada sebelumnya – misalnya, suara lingkungan atau isyarat suara yang berasal dari mesin.\” Uji coba terbaru algoritma Wave Sciences menunjukkan bahwa, bahkan dengan hanya dua mikrofon, teknologi ini dapat berperforma sebaik telinga manusia – bahkan lebih baik, ketika ditambahkan lebih banyak mikrofon.Dan mereka juga mengungkap sesuatu lain.\”Matematika dalam semua uji coba kami menunjukkan persamaan yang luar biasa dengan pendengaran manusia. Ada sedikit aneh dari apa yang bisa dilakukan algoritma kami, dan seberapa akurat algoritma tersebut melakukan tugasnya, yang sangat mirip dengan beberapa keanehan yang ada dalam pendengaran manusia,\” kata McElveen.\”Kami menduga bahwa otak manusia mungkin menggunakan matematika yang sama – bahwa dalam menyelesaikan masalah pesta koktail, kami mungkin telah menemukan apa yang sebenarnya terjadi di otak.\”