Model AI Baru Microsoft Melampaui Sekadar Teks

Microsoft semakin gencar menekuni model AI yang bukan sekadar model bahasa besar (LLM). Perusahaan mengumumkan pada Kamis bahwa mereka merilis tiga model baru: model anyar untuk suara dan transkripsi teks, serta generasi kedua dari model gambar internal mereka.

Model transkripsi suara dan teks merupakan yang pertama kali dikeluarkan Microsoft. Model transkripsi mampu menerjemahkan rekaman ke dalam teks dengan 25 bahasa berbeda. Ia dirancang untuk video captioning, transkripsi rapat, dan agen suara. Model suara dapat membuat rekaman audio hingga 60 detik. Perusahaan menyatakan model gambar generasi kedua mereka memiliki kecepatan pembuatan yang lebih cepat dan penggambaran yang lebih hidup, menyempurnakan model sebelumnya. Model-model ini tersedia sekarang di Microsoft Foundry dan playground MAI, dengan rencana mendatang untuk membawa MAI-Image-2 ke Bing dan PowerPoint. Para pengembang dapat melihat info harga di sini.

Model-model baru ini merupakan tanda jelas bahwa Microsoft berupaya memperluas portofolionya di pasar AI. Copilot Microsoft adalah salah satu chatbot paling populer untuk bisnis, khususnya bagi mereka yang telah menggunakan suite Office 360 dan layanan cloud Azure. Selain model gambar original yang kini sudah ketinggalan zaman, Microsoft terutama berfokus pada model berbasis teks, berusaha membedakan diri di antara banyak pesaingnya sebagai opsi yang aman dan ramah perusahaan. Alat AI terbarunya, Copilot Cowork dan Copilot Health, adalah buktinya.

Model-model ini juga mengingatkan bahwa Microsoft, sebagai perusahaan teknologi mapan, memiliki dana dan daya komputasi berlimpah untuk proyek-proyek “sampingan” semacam ini, yang bahkan startup miliaran dolar seperti OpenAI tidak selalu mampu lakukan. Pekan lalu, OpenAI mengonfirmasi akan menghentikan aplikasi video AI Soranya, dengan alasan akan fokus kembali pada aktivitas inti. Industri AI pada tahun 2026 ini bertujuan membuktikan kegunaan alat-alatnya di tempat kerja, terlebih dengan Claude Code dari Anthropic yang melompati pesaing.

MEMBACA "Jika Anda tidak mengungkapkan, Anda tidak akan mendapatkan dukungan modal internasional": Tanggapan negatif terhadap mandat baru SEC adalah kesalahan karena China semakin mendekat pada pengungkapan iklim

Media generatif, seperti model yang menggerakan pembuatan gambar dan video AI, memerlukan daya komputasi dan energi yang sangat besar untuk dijalankan, yang sebenarnya bisa dialokasikan ke tempat lain. Google, sebagai perusahaan teknologi mapan lain dengan anggaran miliaran untuk riset AI, memberi sinyal pekan ini bahwa mereka tidak akan menyerah pada media generatif, tetapi akan berusaha membuat model yang lebih hemat biaya dan energi, seperti yang terlihat pada model video Veo 3.1 Lite barunya.

Tinggalkan komentar Batalkan balasan