Sebuah jenis baru model bahasa besar, dikembangkan oleh peneliti di Allen Institute for AI (Ai2), memungkinkan pengontrolan penggunaan data pelatihan bahkan setelah model dibangun.
Model baru ini, bernama FlexOlmo, bisa menantang paradigma industri saat ini di mana perusahaan kecerdasan buatan besar menyerap data dari web, buku, dan sumber lain—seringkali dengan minim pertimbangan kepemilikan—lalu memonopoli model yang dihasilkan. Saat ini, begitu data dimasukkan ke model AI, mencabutnya ibarat mencoba mengambil telur dari kue yang sudah matang.
“Secara konvensional, data Anda masuk atau tidak,” kata Ali Farhadi, CEO Ai2 yang berbasis di Seattle, Washington. “Setelah saya latih model dengan data itu, Anda kehilangan kendali. Dan tidak ada jalan keluar, kecuali memaksa saya melakukan pelatihan ulang yang menghabiskan jutaan dolar.”
Pendekatan avant-garde Ai2 membagi pelatihan sehingga pemilik data bisa tetap memegang kendali. Mereka yang ingin berkontribusi data ke model FlexOlmo bisa menyalin model publik bernama “anchor”, lalu melatih model kedua dengan data mereka sendiri, menggabungkannya dengan model anchor, dan menyumbangkan hasilnya untuk pembuatan model ketiga yang final.
Kontribusi semacam ini berarti datanya sendiri tak perlu diserahkan. Dan karena cara penggabungan model pemilik data dengan model final, data bisa diekstrak di kemudian hari. Misalnya, penerbit maju bisa menyumbangkan teks dari arsip artikelnya ke model, tapi lalu menghapus sub-model yang dilatih dengan data itu jika ada sengketa hukum atau jika perusahaan keberatan dengan penggunaan model tersebut.
“Pelatihannya benar-benar asinkron,” ujar Sewon Min, ilmuwan peneliti Ai2 yang memimpin pekerjaan teknis. “Pemilik data tidak perlu berkoordinasi, dan pelatihan bisa dilakukan sepenuhnya secara independen.”
Arsitektur model FlexOlmo menggunakan desain populer bernama “campuran ahli”, yang biasanya dipakai untuk menggabungkan beberapa sub-model jadi satu yang lebih besar dan canggih. Inovasi kunci Ai2 adalah cara menggabungkan sub-model yang dilatih secara independen. Ini dicapai dengan skema baru untuk merepresentasikan nilai dalam model sehingga kemampuannya bisa digabung saat model final dijalankan.
Untuk menguji pendekatan ini, peneliti FlexOlmo membuat dataset bernama Flexmix dari sumber proprietari seperti buku dan situs web. Mereka menggunakan desain FlexOlmo untuk membangun model dengan 37 miliar parameter—sekitar sepersepuluh ukuran model open source terbesar dari Meta. Hasilnya, model mereka mengungguli model individual lain dalam semua tugas dan mencetak skor 10% lebih baik dalam tolok ukur umum dibanding dua pendekatan lain untuk menggabungkan model yang dilatih secara independen.
Hasilnya adalah cara untuk tetap memakan kue—dan juga mengambil kembali telurnya. “Anda bisa keluar dari sistem tanpa kerusakan besar atau waktu inferensi yang terbuang,” kata Farhadi. “Ini adalah cara berpikir baru tentang pelatihan model-model ini.”