OpenAI mungkin segera meluncurkan asisten digital AI multimodal

OpenAI telah menunjukkan kepada beberapa pelanggannya model AI multimodal baru yang dapat berbicara dengan Anda dan mengenali objek, menurut laporan terbaru dari The Information. Mengutip sumber yang tidak disebutkan namanya yang telah melihatnya, outlet tersebut mengatakan ini bisa menjadi bagian dari apa yang rencanakan perusahaan untuk ditunjukkan pada hari Senin. Model baru tersebut dilaporkan menawarkan interpretasi gambar dan audio yang lebih cepat dan akurat daripada apa yang dapat dilakukan model transkripsi dan teks-ke-suara terpisah yang ada. Ini tampaknya dapat membantu agen layanan pelanggan “lebih memahami intonasi suara para pemanggil atau apakah mereka sedang bersarkasme,” dan “secara teoritis,” model tersebut dapat membantu siswa dengan matematika atau menerjemahkan tanda-tanda dunia nyata, menulis The Information. Sumber-sumber outlet mengatakan model dapat mengalahkan GPT-4 Turbo dalam “menjawab beberapa jenis pertanyaan,” tetapi masih rentan untuk dengan percaya diri salah. Mungkin OpenAI juga sedang mempersiapkan kemampuan ChatGPT bawaan baru untuk melakukan panggilan telepon, menurut Pengembang Ananay Arora, yang memposting tangkapan layar di atas kode terkait panggilan. Arora juga menemukan bukti bahwa OpenAI telah menyediakan server yang dimaksudkan untuk komunikasi audio dan video real-time. Tidak ada yang akan menjadi GPT-5, jika itu diumumkan minggu depan. CEO Sam Altman secara tegas membantah bahwa pengumuman mendatangnya memiliki hubungan dengan model yang seharusnya “jauh lebih baik” daripada GPT-4. The Information menulis GPT-5 mungkin akan dirilis secara publik pada akhir tahun.

MEMBACA  Di Melbourne, Sebuah Koran Hyperlocal yang Memikat untuk Era Digital