Model AI generatif hari ini, seperti yang ada di balik ChatGPT dan Gemini, dilatih pada banyak data dunia nyata, tetapi bahkan semua konten di internet tidak cukup untuk mempersiapkan model untuk setiap situasi yang mungkin terjadi. Untuk terus berkembang, model-model ini perlu dilatih dengan data simulasi atau data sintetis, yang merupakan skenario yang mungkin terjadi, namun tidak nyata. Pengembang AI harus melakukan ini dengan bertanggung jawab, kata para ahli dalam sebuah panel di South by Southwest, atau hal-hal bisa menjadi kacau dengan cepat. Penggunaan data simulasi dalam pelatihan model kecerdasan buatan telah mendapatkan perhatian baru tahun ini sejak diluncurkannya DeepSeek AI, sebuah model baru yang diproduksi di China yang dilatih menggunakan lebih banyak data sintetis daripada model lain, menghemat uang dan daya pemrosesan. Namun para ahli mengatakan ini tentang lebih dari sekedar menghemat pengumpulan dan pemrosesan data. Data sintetis — yang dihasilkan komputer seringkali oleh AI itu sendiri — dapat mengajari model tentang skenario yang tidak ada dalam informasi dunia nyata yang diberikan padanya namun mungkin dihadapi di masa depan. Kemungkinan satu banding sejuta itu tidak perlu menjadi kejutan bagi sebuah model AI jika telah melihat simulasi tentang hal itu. “Dengan data simulasi, Anda dapat menghilangkan gagasan kasus ekstrim, asalkan Anda dapat percaya padanya,” kata Oji Udezue, yang telah memimpin tim produk di Twitter, Atlassian, Microsoft, dan perusahaan lainnya. Dia dan para panelis lainnya berbicara pada hari Minggu di konferensi SXSW di Austin, Texas. “Kita dapat membangun produk yang bekerja untuk 8 miliar orang, dalam teori, selama kita dapat mempercayainya.” Bagian sulitnya adalah memastikan Anda dapat mempercayainya. Masalah dengan data simulasi Data simulasi memiliki banyak manfaat. Salah satunya, biayanya lebih murah untuk diproduksi. Anda dapat menguji tabrakan ribuan mobil simulasi menggunakan beberapa perangkat lunak, namun untuk mendapatkan hasil yang sama dalam kehidupan nyata, Anda harus benar-benar merusak mobil — yang biayanya sangat mahal — kata Udezue. Jika Anda melatih mobil otonom, misalnya, Anda perlu menangkap beberapa skenario yang kurang umum yang mungkin dialami oleh kendaraan di jalan, bahkan jika mereka tidak ada dalam data latihan, kata Tahir Ekin, seorang profesor analitik bisnis di Texas State University. Dia menggunakan kasus kelelawar yang membuat penampilan spektakuler dari Jembatan Congress Avenue di Austin. Itu mungkin tidak muncul dalam data latihan, namun mobil otonom akan membutuhkan sedikit rasa bagaimana merespons terhadap gerombolan kelelawar. Risikonya berasal dari bagaimana mesin yang dilatih menggunakan data sintetis merespons perubahan dunia nyata. Itu tidak bisa ada dalam realitas alternatif, atau itu menjadi kurang berguna, atau bahkan berbahaya, kata Ekin. “Bagaimana perasaan Anda,” tanyanya, “masuk ke mobil otonom yang tidak dilatih di jalan, yang hanya dilatih dengan data simulasi?” Setiap sistem yang menggunakan data simulasi perlu “tertanam dalam dunia nyata,” katanya, termasuk umpan balik tentang bagaimana penalaran simulasi mereka sejalan dengan apa yang sebenarnya terjadi. Udezue membandingkan masalah itu dengan penciptaan media sosial, yang dimulai sebagai cara untuk memperluas komunikasi di seluruh dunia, sebuah tujuan yang berhasil dicapai. Namun media sosial juga telah disalahgunakan, katanya, mencatat bahwa “sekarang para diktator menggunakannya untuk mengontrol orang, dan orang menggunakannya untuk bercanda pada saat yang sama.” Saat perangkat AI tumbuh dalam skala dan popularitas, sebuah skenario yang menjadi lebih mudah berkat penggunaan data latihan sintetis, dampak nyata dunia dari pelatihan yang tidak dapat dipercaya dan model yang menjadi terlepas dari kenyataan menjadi lebih signifikan. “Beban itu ada pada kita para pembangun, ilmuwan, untuk memastikan bahwa sistem itu dapat diandalkan,” kata Udezue. “Ini bukanlah fantasi.” Cara menjaga data simulasi tetap terkendali Salah satu cara untuk memastikan bahwa model-model tersebut dapat dipercaya adalah dengan membuat pelatihan mereka transparan, sehingga pengguna dapat memilih model yang akan digunakan berdasarkan evaluasi informasi tersebut. Para panelis secara berulang kali menggunakan analogi label gizi, yang mudah dimengerti oleh pengguna. Beberapa transparansi ada, seperti kartu model yang tersedia melalui platform pengembang Hugging Face yang memecah rincikan detail sistem-sistem yang berbeda. Informasi itu perlu sejelas dan se transparan mungkin, kata Mike Hollinger, direktur manajemen produk untuk kecerdasan buatan generatif di perusahaan chip Nvidia. “Jenis-jenis hal itu harus ada,” katanya. Hollinger mengatakan pada akhirnya, bukan hanya pengembang AI tetapi juga pengguna AI yang akan menentukan praktik terbaik industri. Industri juga perlu mempertimbangkan etika dan risiko, kata Udezue. “Data sintetis akan membuat banyak hal menjadi lebih mudah dilakukan,” katanya. “Ini akan menurunkan biaya membangun sesuatu. Namun beberapa hal tersebut akan mengubah masyarakat.” Udezue mengatakan observabilitas, transparansi, dan kepercayaan harus dibangun ke dalam model untuk memastikan kehandalannya. Itu termasuk memperbarui model-model pelatihan sehingga mereka mencerminkan data yang akurat dan tidak memperbesar kesalahan dalam data sintetis. Salah satu kekhawatiran adalah runtuhnya model, ketika sebuah model AI yang dilatih dengan data yang dihasilkan oleh model AI lain akan semakin menjauh dari kenyataan, sampai pada titik menjadi tidak berguna. “Semakin Anda menjauh dari menangkap keragaman dunia nyata, tanggapannya mungkin tidak sehat,” kata Udezue. Solusinya adalah koreksi kesalahan, katanya. “Masalah-masalah ini tidak terasa seperti masalah yang tak terpecahkan jika Anda menggabungkan ide kepercayaan, transparansi, dan koreksi kesalahan ke dalamnya.”
