China mungkin segera memiliki versi model teks-ke-video milik OpenAI-nya.

Sebuah kelompok peneliti dan ahli kecerdasan buatan (AI) sedang bekerja sama untuk mengembangkan respons China terhadap Sora, model teks-to-video yang sangat diantisipasi dari OpenAI.

Apa itu: Profesor Peking University dan Rabbitpre, sebuah perusahaan AI yang berbasis di Shenzhen, mengumumkan kolaborasi mereka dalam sebuah pos GitHub pada hari Jumat, yang mereka beri nama Open-Sora. Proyek tersebut difasilitasi melalui Rabbitpre AIGC Joint Lab, upaya bersama antara perusahaan dan sekolah pascasarjana universitas.

Menurut tim, Open-Sora bertujuan untuk “mereproduksi model generasi video OpenAI” dengan “repository yang sederhana dan dapat diskalakan”. Kelompok ini meminta bantuan dari komunitas open-source untuk pengembangannya.

Kemajuan yang telah dicapai: Dengan menggunakan kerangka tiga bagian dengan komponen Video VQ-VAE, Denoising Diffusion Transformer, dan Condition Encoder, kelompok tersebut telah berhasil menghasilkan sampel dengan rasio aspek, resolusi, dan durasi yang berbeda untuk video yang direkonstruksi, termasuk klip berdurasi 10 dan 18 detik.

Mengenai Sora: Diungkapkan pada 15 Februari, Sora adalah model teks-to-video pertama OpenAI yang dapat secara instan membuat video realistis berkualitas tinggi menggunakan hanya teks. Sejauh ini, durasinya dapat berlangsung hingga satu menit.

Meskipun teknologinya telah diumumkan, OpenAI mengatakan tidak memiliki rencana untuk membuat Sora tersedia untuk penggunaan umum dalam waktu dekat. Perusahaan masih perlu mengatasi beberapa isu seperti mengurangi misinformasi, konten berbau kebencian, dan bias, serta memberikan label yang tepat pada produk jadi.

Apa yang akan dilakukan selanjutnya: Rabbitpre AIGC Joint Lab telah merinci beberapa rencana masa depannya untuk Open-Sora, yang mencakup pembentukan kode dasar dan pelatihan model tanpa syarat pada dataset lanskap. Selanjutnya, kelompok berencana melatih model untuk meningkatkan resolusi dan durasi sebagai bagian dari tahap proyek utamanya.

MEMBACA RUU C-12 Kanada Dikecam: 'Serangan terhadap Hak Pengungsi dan Migran', Menurut Para Pegiat

Tim juga berencana melakukan eksperimen pada dataset lanskap teks-to-video, melatih model resolusi 1080p (1920 x 1080) pada dataset video-to-teks, dan mengembangkan model pengendali dengan kondisi tambahan.