IBM akan menguji LLM Asia Tenggara dan memfasilitasi upaya lokal.

IBM telah menandatangani perjanjian dengan AI Singapura (AISG) untuk menguji model bahasa besar Asia Tenggara (LLM) dan membuatnya tersedia untuk pengembang membangun aplikasi kecerdasan buatan (AI) yang disesuaikan. Di bawah kemitraan tersebut, IBM akan menguji model Southeast Asian Languages in One Network (SEA-LION) menggunakan teknologi AI dan platform data Big Blue, watsonx, dan bekerja dengan AISG untuk menyempurnakan LLM tersebut. Tujuannya adalah untuk memberikan organisasi kemampuan untuk memilih model AI yang sesuai dengan kebutuhan bisnis mereka, kata IBM dan AISG dalam pernyataan bersama Selasa. IBM juga akan membuat SEA-LION tersedia di perpustakaan kasus penggunaan AI, yang disebut Digital Self-Serve Co-Create Experience (DSCE), memungkinkan pengembang dan ilmuwan data membangun aplikasi AI generatif lokal. Model LLM sumber terbuka yang dikembangkan oleh AISG, SEA-LION, dirancang untuk menjadi lebih kecil, lebih fleksibel, dan lebih cepat dibandingkan dengan LLM lain di pasar, menurut AISG. Iterasi saat ini berjalan pada dua model dasar: model 3 miliar parameter dan model 7 miliar parameter. Data pelatihan LLM terdiri dari 981 miliar token bahasa, yang AISG definisikan sebagai fragmen kata yang dibuat dari memecah teks selama proses tokenisasi. Fragmen ini mencakup 623 miliar token bahasa Inggris, 128 miliar token Asia Tenggara, dan 91 miliar token Tionghoa. Dengan SEA-LION, Singapura bertujuan untuk mendorong pengembangan LLM yang lebih baik mencerminkan campuran sosial Asia Tenggara dan menunjukkan pemahaman kontekstual yang lebih kuat terhadap budaya dan bahasa yang beragam di wilayah itu. Kemitraan tersebut bertujuan untuk mendorong “pondasi model yang dibuat khusus” untuk Asia Tenggara dan dibuat oleh orang Asia Tenggara, kata Leslie Teo, direktur senior produk AI AISG. Kedua organisasi juga akan mencari untuk membangun kasus penggunaan dan mempercepat adopsi SEA-LION serta membantu organisasi “mengembangkan AI dengan aman dan bertanggung jawab,” kata Teo. Kolaborasi mencakup upaya untuk menggabungkan tata kelola AI ke dalam SEA-LION, sehingga bisnis dapat lebih baik menavigasi kepatuhan, manajemen risiko, dan manajemen siklus hidup model, bahkan ketika peraturan pemerintah tentang AI terus berkembang. IBM percaya kemajuan lebih lanjut GenAI akan membawa kinerja lebih baik dalam model bahasa yang lebih kecil, dengan pengguna diberi kesempatan untuk mempersonalisasi model berdasarkan kebutuhan bisnis dan industri mereka, kata Catherine Lian, manajer umum IBM Asean dan pemimpin teknologi. “Tidak ada satu model pun yang cocok untuk semua bisnis, dan organisasi harus diberdayakan dengan pilihan untuk menggunakan model mereka berdasarkan kebutuhan mereka,” kata Lian. “LLM SEA-LION adalah langkah besar dalam menciptakan sistem AI terbuka dan mengatasi tantangan bahasa Asean yang dihadapi perusahaan dan pemerintah saat bekerja dengan AI.” AISG pada Maret juga mengumumkan kemitraan dengan Google untuk meningkatkan dataset yang digunakan untuk melatih, menyempurnakan, dan menilai model AI dalam bahasa khusus Asia Tenggara. Disebut Project Southeast Asian Languages in One Network Data, inisiatif tersebut bertujuan untuk “meningkatkan kesadaran konteks budaya” dalam LLM yang dibangun untuk wilayah itu. Awalnya, proyek ini akan berfokus pada bahasa Indonesia, Thailand, Tamil, Filipina, dan Myanmar – bahasa di mana AISG dan Google akan mengembangkan model translokalisasi dan terjemahan. Mereka juga akan membangun alat untuk membantu meningkatkan kemampuan translokalisasi dan praktik terbaik untuk menyetel dataset. Panduan pra-pelatihan akan diterbitkan untuk bahasa Asia Tenggara.

MEMBACA  Siap-siap untuk Melihat Ledakan Langit yang Hanya Terjadi Sekali Setiap 80 Tahun