Model AI mungkin sedikit mirip dengan manusia, ternyata.
Sebuah studi baru dari University of Texas di Austin, Texas A&M, dan Purdue University menunjukkan bahwa model bahasa besar yang diberi konten media sosial populer namun berkualitas rendah mengalami semacam “kerusakan otak” yang mungkin familiar bagi siapa saja yang terlalu lama doomscrolling di X atau TikTok.
“Kita hidup di era di mana informasi tumbuh lebih cepat daripada rentang perhatian—dan sebagian besarnya dirancang untuk meraih klik, bukan menyampaikan kebenaran atau kedalaman,” ujar Junyuan Hong, seorang asisten profesor baru di National University of Singapore yang terlibat dalam studi ini sebagai mahasiswa pascasarjana di UT Austin. “Kami penasaran: Apa yang terjadi jika AI dilatih dengan hal yang sama?”
Hong dan rekan-rekannya memberikan berbagai jenis teks kepada dua model bahasa besar open source selama tahap pra-pelatihan. Mereka meneliti apa yang terjadi ketika model-model tersebut diberi campuran postingan media sosial yang sangat “menarik” atau banyak dibagikan, serta yang mengandung teks sensasional seperti “wow,” “lihat,” atau “hari ini saja.”
Para peneliti kemudian menggunakan beberapa benchmark berbeda untuk mengukur dampak diet media sosial “sampah” ini pada dua model open source: Llama dari Meta dan Qwen dari Alibaba.
Model-model yang diberi teks sampah mengalami semacam kerusakan otak AI—ditandai penurunan kognitif seperti kemampuan bernalar yang berkurang dan memori yang memburuk. Model-model tersebut juga menjadi kurang selaras secara etis dan lebih psikopatik menurut dua pengukuran.
Hasil ini mencerminkan penelitian pada subjek manusia, yang menunjukkan bahwa konten online berkualitas rendah memiliki efek merugikan pada kemampuan kognitif orang. Meluasnya fenomena ini membuat “kerusakan otak” dinobatkan sebagai kata tahunan oleh Kamus Oxford pada 2024.
Hasil ini penting bagi industri AI, kata Hong, karena para pengembang model mungkin menganggap postingan media sosial sebagai sumber data pelatihan yang baik untuk model mereka. “Melatih model dengan konten viral atau yang menarik perhatian mungkin terlihat seperti memperbanyak data,” ujarnya. “Tetapi hal itu diam-diam dapat mengikis nalar, etika, dan perhatian untuk konteks panjang.”
Fakta bahwa LLM mengalami kerusakan otak tampaknya sangat mengkhawatirkan ketika AI sendiri semakin banyak menghasilkan konten media sosial, yang sebagian besar sepertinya dioptimalkan untuk keterlibatan. Para peneliti juga menemukan bahwa model yang terganggu oleh konten berkualitas rendah tidak dapat dengan mudah diperbaiki melalui pelatihan ulang.
Temuan ini juga mengisyaratkan bahwa sistem AI yang dibangun di sekitar platform sosial, seperti Grok, mungkin mengalami masalah kontrol kualitas jika postingan yang dihasilkan pengguna digunakan dalam pelatihan tanpa memperhatikan integritas postingan tersebut.
“Semakin banyak slop yang dihasilkan AI menyebar di media sosial, hal itu mencemari data yang akan dipelajari model di masa depan,” kata Hong. “Temuan kami menunjukkan bahwa sekali ‘kerusakan otak’ semacam ini terjadi, pelatihan ulang dengan data bersih tidak dapat sepenuhnya memulihkannya.”
Ini adalah edisi dari buletin AI Lab Will Knight. Baca edisi sebelumnya di sini.