Geser, Claude: Model AI Baru Moonshot Bisa “Vibe-Code” Cukup dari Unggah Satu Video

Bloomberg / Kontributor / Bloomberg via Getty

Ikuti ZDNET: Tambahkan kami sebagai sumber pilihan di Google.

*

Poin Penting ZDNET**

  • Model sumber terbuka Kimi K2.5 dari Moonshot diluncurkan pada Selasa.
  • Model ini dapat menghasilkan antarmuka web hanya berdasarkan gambar atau video.
  • Juga dilengkapi dengan fitur beta "agent swarm".

    **

    Startup AI asal Tiongkok yang didukung Alibaba, Moonshot, meluncurkan Kimi K2.5 pada Selasa. Dalam sebuah postingan blog, mereka menggambarkannya sebagai "model sumber terbuka paling kuat hingga saat ini di dunia".

    Dibangun di atas LLM Kimi K2 yang diperkenalkan musim panas lalu, model terbaru Moonshot ini dilengkapi kemampuan coding yang berpotensi menjadikannya pesaing serius bagi model-model proprieternya. Menurut data yang dipublikasikan Moonshot, Kimi K2.5 mencetak skor setara dengan model-model terdepan dari OpenAI, Google, dan Anthropic pada tolok ukur coding SWE-Bench Verified dan SWE-Bench Multilingual.

    Namun, kemampuannya menciptakan antarmuka web front-end* dari input visual-lah yang mungkin benar-benar membedakannya dari yang lain.

    Coding dengan Visi

    Kimi K2.5 dilatih sebelumnya dengan 15 triliun token teks dan visual, menjadikannya "model multimodal asli" menurut Moonshot, yang dapat menghasilkan antarmuka web dari gambar atau video yang diunggah, lengkap dengan elemen interaktif dan efek scroll.

    Dalam video demo kemampuan "coding dengan visi" yang disertakan dalam postingan blog Moonshot, Kimi K2.5 menghasilkan draft situs web baru berdasarkan rekaman video dari situs web yang sudah ada, ditampilkan dari perspektif layar pengguna saat scrolling. Model ini mampu menciptakan kembali estetika umumnya, meskipun—dalam gaya AI klasik—melakukan beberapa kesalahan visual kecil di tengah jalan, seperti menggambarkan benua di globe sebagai gumpalan amorf.

    Tidak jelas seberapa praktis kemampuan semacam ini. (Mengapa sebuah perusahaan perlu membuat salinan situs web yang sudah sangat baik, yang dihasilkan AI dengan daya tarik visual yang sedikit berkurang?) Namun, menghasilkan mock-up situs web dan aplikasi secara eksklusif dari gambar atau video akan menandai langkah maju yang berarti untuk alat-alat yang disebut "vibe coding", yang didasarkan pada metode intuitif yang mudah digunakan oleh non-ahli dibandingkan coding tradisional.

    ChatGPT, Claude, dan Gemini dapat menghasilkan raw code untuk aset web baru berdasarkan screenshot atau gambar lain, tetapi pengguna masih perlu menerjemahkannya menjadi produk jadi yang dapat digunakan. Kebaruan (dan potensi nilai pasar) model baru Moonshot ini adalah menghilangkan langkah perantara itu. "Dengan penalaran atas gambar dan video, K2.5 meningkatkan pembuatan kode dari gambar/video dan debugging visual, menurunkan hambatan bagi pengguna untuk mengekspresikan maksud secara visual," tulis perusahaan itu dalam postingan blognya.

    Baca juga: Saya menggunakan Claude Code untuk vibe code aplikasi Mac dalam 8 jam, tetapi lebih banyak kerja daripada keajaiban

    Jika terbukti berguna di dunia nyata, terutama di kalangan bisnis, pengembang lain kemungkinan akan mengikutinya dengan kemampuan serupa untuk model mereka sendiri.

    Kemampuan coding Kimi K2.5 telah tersedia melalui platform sumber terbuka bernama Kimi Code, yang dapat diakses melalui Integrated Development Environment (IDE) seperti Cursor, VSCode, dan Zed. Model baru ini juga tersedia melalui Kimi.com, Aplikasi Kimi, dan API Kimi.

    Agent Swarm

    Moonshot juga memperkenalkan pratinjau riset bernama "agent swarm", yang mengoordinasikan hingga seratus "sub-agen" untuk meningkatkan kinerja pada tugas-tugas bertahap tertentu.

    Dengan menjalankan beberapa tugas secara paralel satu sama lain, agent swarm juga dapat mempercepat proses komputasi. "Menjalankan sub-tugas ini secara bersamaan secara signifikan mengurangi latensi end-to-end dibandingkan dengan eksekusi agen berurutan," tulis Moonshot, menambahkan bahwa evaluasi internal menunjukkan bahwa waktu proses end-to-end—proses total dari input hingga penyelesaian output akhir—dapat dikurangi hingga 80%.

    Baca juga: Saya menggunakan Claude Code untuk vibe code aplikasi Apple Watch hanya dalam 12 jam – alih-alih 2 bulan

    Pengguna dengan akun Moonshot "Allegretto" atau "Vivace" yang aktif (masing-masing berharga $31/bulan dan $159/bulan) dapat mencoba agent swarm di situs web Kimi dengan mengklik menu tarik-turun model di pojok kanan bawah kotak prompt dan memilih "K2.5 Agent Swarm (Beta)".

MEMBACA  Anda dapat berbicara dengan Mode Suara Lanjutan ChatGPT pada MacOS dan Windows sekarang

Tinggalkan komentar