Latam-GPT merupakan model bahasa berskala besar baru yang tengah dikembangkan untuk dan di Amerika Latin. Proyek yang dipimpin oleh lembaga nirlaba asal Cile, Pusat Nasional Kecerdasan Artifisial (CENIA), bertujuan mendukung kemandirian teknologi kawasan melalui pengembangan model AI sumber terbuka yang dilatih dengan bahasa dan konteks Amerika Latin.
“Inisiatif ini tidak bisa dikerjakan oleh satu kelompok atau satu negara saja di Amerika Latin: Ini adalah tantangan yang memerlukan partisipasi semua pihak,” ujar Álvaro Soto, direktur CENIA, dalam sebuah wawancara dengan WIRED en Español. “Latam-GPT adalah proyek yang berupaya menciptakan model AI yang terbuka, gratis, dan yang terpenting, kolaboratif. Kami telah bekerja selama dua tahun dengan pendekatan bottom-up, menyatukan warga dari berbagai negara yang ingin berkontribusi. Belakangan, muncul juga inisiatif yang lebih top-down, di mana pemerintah mulai tertarik dan terlibat dalam proyek ini.”
Proyek ini menonjol berkat semangat kolaborasinya. “Kami tidak bermaksud untuk bersaing dengan OpenAI, DeepSeek, atau Google. Kami ingin sebuah model yang spesifik untuk Amerika Latin dan Karibia, yang memahami kebutuhan budaya serta tantangannya, seperti pemahaman atas berbagai dialek, sejarah kawasan, dan aspek budaya unik,” jelas Soto.
Berkat 33 kemitraan strategis dengan institusi di Amerika Latin dan Karibia, proyek ini telah mengumpulkan korpus data yang melebihi delapan terabita teks, setara dengan jutaan buku. Basis informasi ini memungkinkan pengembangan model bahasa dengan 50 miliar parameter—skala yang membuatnya sebanding dengan GPT-3.5 dan memberikannya kemampuan menengah hingga tinggi untuk melakukan tugas kompleks seperti penalaran, terjemahan, dan asosiasi.
Latam-GPT sedang dilatih menggunakan basis data regional yang mengompilasi informasi dari 20 negara Amerika Latin dan Spanyol, dengan total dokumen mencapai 2.645.500. Distribusi data menunjukkan konsentrasi signifikan di negara-negara terbesar di kawasan, dengan Brasil sebagai pemimpin dengan 685.000 dokumen, disusul Meksiko dengan 385.000, Spanyol dengan 325.000, Kolombia dengan 220.000, dan Argentina dengan 210.000 dokumen. Angka-angka ini mencerminkan ukuran pasar, perkembangan digital, serta ketersediaan konten terstruktur di masing-masing negara.
“Awalnya, kami akan meluncurkan model bahasa. Kami berharap kinerjanya dalam tugas-tugas general akan mendekati model komersial besar, namun dengan performa lebih unggul untuk topik spesifik Amerika Latin. Gagasannya adalah, jika kita menanyakan hal-hal relevan bagi kawasan kita, pengetahuannya akan jauh lebih mendalam,” terang Soto.
Model pertama ini adalah titik awal untuk mengembangkan keluarga teknologi yang lebih maju di masa depan, termasuk model dengan kemampuan gambar dan video, serta penskalaan ke model lebih besar. “Mengingat ini adalah proyek terbuka, kami ingin institusi lain dapat memanfaatkannya. Sebuah grup di Kolombia bisa mengadaptasinya untuk sistem pendidikan sekolah, atau di Brasil untuk sektor kesehatan. Intinya adalah membuka peluang bagi berbagai organisasi untuk menghasilkan model spesifik bidang tertentu seperti pertanian, budaya, dan lain-lain,” papar direktur CENIA tersebut.