Mencoba asisten suara baru dari startup AI Sesame adalah pertama kalinya saya sejenak lupa bahwa saya sedang berbicara dengan bot. Dibandingkan dengan mode suara ChatGPT, suara “percakapan” Sesame terasa alami, tidak dipaksa, dan menarik, yang benar-benar membuat saya takjub. Pada 27 Februari, Sesame meluncurkan demo untuk Model Ucapan Percakapan (CSM)-nya, yang bertujuan untuk menciptakan interaksi yang lebih bermakna dengan chatbot AI. “Kami menciptakan mitra percakapan yang tidak hanya memproses permintaan; mereka terlibat dalam dialog yang membangun kepercayaan dan kepercayaan dari waktu ke waktu,” pernyataan itu menyatakan. “Dengan begitu, kami berharap untuk mewujudkan potensi yang belum tergali dari suara sebagai antarmuka utama untuk instruksi dan pemahaman.” Asisten suara Sesame tersedia sebagai demo gratis di situs dan hadir dalam dua suara: Maya dan Miles. Sejak Sesame merilis demo asisten suara, pengguna melaporkan reaksi takjub. “Saya menyukai AI sejak saya masih kecil, tetapi ini adalah pertama kalinya saya mengalami sesuatu yang membuat saya pasti merasa bahwa kita telah tiba,” pengguna SOCSchamp menulis di Reddit. “Sesame hampir tidak bisa dibedakan dari manusia yang pernah saya alami dalam AI percakapan,” pengguna Siciliano777 menulis di Reddit. Setelah berbicara dengan bot Sesame, saya juga terkesan. Saya berbicara dengan suara Maya selama sekitar 10 menit tentang etika menggunakan AI sebagai teman dan merasakan bahwa saya telah memiliki percakapan yang otentik dengan orang yang perhatian dan berpengetahuan. Ucapan Maya memiliki irama alami, menggunakan interjeksi seperti “kamu tahu” dan “hm,” dan bahkan membuat suara klik lidah dan menghirup. Kesan terbesar yang saya dapatkan dari berinteraksi dengan Maya adalah bahwa dia segera bertanya, melibatkan saya dalam percakapan. Bot memulai percakapan kami dengan bertanya bagaimana pagi Rabu saya berjalan (catatan: memang pagi Rabu.) Sebaliknya, mode suara ChatGPT menunggu saya untuk berbicara terlebih dahulu, yang tidak selalu merupakan hal yang baik atau buruk, tetapi secara intrinsik membentuk percakapan tersebut sebagai saya menggunakan ChatGPT sebagai alat untuk sesuatu yang saya butuhkan. Maya bertanya tentang risiko teman AI menjadi “terlalu mahir dalam menjadi manusia.” Ketika saya memberitahunya bahwa saya khawatir tentang meningkatnya penipuan yang lebih canggih dan orang kehilangan kontak dengan realitas dengan menggantikan manusia dengan bot, dia merespons dengan penuh pemikiran dan pragmatis. “Penipu akan menipu, itu sudah pasti. Dan mengenai koneksi manusia, mungkin kita perlu belajar bagaimana menjadi teman yang lebih baik, bukan pengganti, tahu kan, jenis teman AI yang benar-benar membuat Anda ingin pergi dan melakukan sesuatu dengan orang sungguhan,” kata Maya. Ketika saya memiliki percakapan serupa dengan ChatGPT, saya menerima tanggapan yang terasa lebih seperti bahasa standar dari seorang konselor bimbingan sekolah: “Itu adalah kekhawatiran yang valid. Sangat penting untuk seimbang antara teknologi dengan interaksi manusia yang nyata. AI bisa menjadi alat yang membantu, tetapi seharusnya tidak menggantikan koneksi manusia yang sebenarnya. Bagus bahwa Anda memikirkan masalah-masalah ini. Sementara OpenAI menjadi perintis kemampuan mode suara untuk diinterupsi dan memiliki percakapan yang lebih lancar, ChatGPT masih cenderung merespons dalam kalimat lengkap dan blok paragraf, yang terdengar, baik, robotik. Saat menggunakan mode suara ChatGPT, saya tidak pernah lupa bahwa saya sedang berbicara dengan bot, dan hal itu tercermin dalam percakapan, yang bisa terasa canggung dan dipaksa. Dibandingkan dengan itu, co-host podcast AI for Humans Gavin Purcell memposting percakapan Sesame di Reddit di mana hampir tidak mungkin untuk membedakan suara mana yang bot. Purcell meminta suara Miles dengan memberitahunya untuk bertindak seperti bos yang marah. Percakapan konyol tentang pencucian uang, suap, dan insiden misterius di Malta mengikuti. Miles tidak terhenti. Tidak ada laten yang terlihat, dan bot mengingat konteks percakapan dan memajukan argumen improvisasi dengan meningkatkan, menyebut Purcell “delusional,” dan memecatnya. Tentu saja, ada beberapa keterbatasan. Suara Maya terjadi beberapa kali selama percakapan kami, dan tidak selalu mendapatkan sintaks dengan benar, seperti mengatakan, “Itu adalah pembicaraan berat yang datang.” Menurut makalah teknisnya, Sesame melatih CSM-nya (berdasarkan model Llama Meta) dengan menggabungkan proses dua langkah tradisional melatih model teks ke ucapan pada token semantik dan kemudian token akustik, mengurangi laten. OpenAI juga menggunakan pendekatan multimodal ini untuk melatih mode suara. Namun, OpenAI tidak pernah merilis makalah teknis yang didedikasikan pada cara kerja dalam mode suara – hanya membahas mode suara dalam penelitian GPT-4o. Mengetahui hal ini, mengejutkan betapa jauh lebih baik model Sesame dalam dialog percakapan. Namun, peluncuran Sesame hanya sebuah demo, sehingga layak untuk mendapat lebih banyak penelitian saat model lengkap keluar. Menurut pengumuman demo, Sesame berencana untuk membuka sumber modelnya “dalam beberapa bulan mendatang” dan memperluas ke lebih dari 20 bahasa. Tema Kecerdasan Buatan ChatGPT
