Mengapa Model AI Sulit Mendeteksi Ujaran Kebencian secara Daring?

Ucapan kebencian yang dulu hanya beredar secara tatap muka, sekarang menyebar lebih jauh dan lebih cepat lewat akun-akun anonim di balik layar.

Saat Perserikatan Bangsa-Bangsa memperingati Hari Internasional untuk Penanggulangan Ucapan Kebencian pada 18 Juni, Sekretaris Jenderal PBB Antonio Guterres telah memperingatkan bahwa platform-platform media sosial sedang memperkuat ancaman tersebut.

Dengan kecerdasan buatan (AI) yang semakin sering ditugaskan untuk mendeteksi dan menghapus ujaran kebencian di dunia maya, Al Jazeera mengkaji di mana titik lemah sistem ini jika dibandingkan dangan penilaian manusia.

Bagaimana ujaran kebencian didefinisikan?

Menurut PBB, ujaran kebencian mencakup segala bentuk komunikasi—lisan, tulisan, atau perilaku—yang mendiskriminasi atau menghasut kekerasan terhadap seseorang atau kelompok.

PBB menyatakan bahwa ujaran kebencian menarget identitas aktual atau yang dipersepsikan seseorang, ras, etnisitas, agama, gender, orientasi seksual, atau disabilitas. Dan ini tidak terbatas pada kata-kata, karena PBB mencatat bahwa hal ini juga dapat berupa gambar, kartun, gestur, dan bahkan objek.

Berapa banyak orang yang mengalami ujaran kebencian di dunia maya?

Menurut sebuah survei bersama tahun 2023 terhadap 8.000 orang di 16 negara yang dilakukan oleh perusahaan jajak pendapat Ipsos dan Organisasi Pendidikan, Ilmu Pengetahuan, dan Kebudayaan PBB (UNESCO), lebih dari dua pertiga pengguna internet pernah menjumpai ujaran kebencian secara daring.

Survei tersebut juga menemukan bahwa 33 persen responden menganggap kelompok LGBTQI adalah yang paling sering mengalami ujaran kebencian, diikuti oleh minoritas etnis dan rasial (28 persen), dan perempuan (18 persen).

Meta, yang memiliki Facebook, telah mengurangi jumlah konten kebencian yang dihapus sejak 2023. Pada kuartal terakhir tahun 2025, perusahaan tersebut menghapus 1,3 juta unggahan dari Instagram dan 1,3 juta dari Facebook, dibandingkan dengan 7,4 juta unggahan dari Instagram dan 5,8 juta dari Facebook pada kuartal keempat tahun 2024.

MEMBACA Mengapa ujian telah memicu kemarahan nasional di India

Hal ini terjadi seiring dengan pergeseran perusahaan dari deteksi ujar kebencian secara proaktif menjadi lebih mengandalkan laporan dari pengguna.

Di sisi lain, TikTok, menurut laporan mereka, menghapus 96,3 persen dari seluruh ujaran kebencian dan konten serupa pada kuartal keempat tahun 2025 sebelum konten tersebut dilaporkan.

Model AI mendeteksi ujaran kebencian secara berbeda

Untuk mendeteksi dan memerangi penyebaran ujaran kebencian di dunia maya, perusahaan media sosial semakin beralih ke AI, menggunakan sistem moderasi konten yang didukung oleh model bahasa besar (LLM) yang menjanjikan otomatisasi penyaringan konten di seluruh volume pesan yang besar.

Secara umum, sistem ini menggunakan kumpulan data berlabel dan model bahasa yang telah dilatih sebelumnya untuk mendeteksi bahasa kasar. Mereka kemudian menerapkan kaidah atau ambang batas skor untuk memutuskan apakah suatu konten bersifat kebencian atau melanggar kebijakan perusahaan.

Sebuah studi tahun 2025 oleh peneliti dari Universitas Pennsylvania menemukan bahwa model-model ini sangat bervariasi dalam cara mereka mengidentifikasi dan mengklasifikasikan ujaran kebencian, dengan ketidakkonsistenan signifikan antar sistem dan kelompok demografis, yang menimbulkan kekhawatiran tentang bias dan perlindungan yang tidak merata di dunia maya.

Studi tersebut mengevaluasi tujuh sistem moderasi AI—termasuk model dari OpenAI, Anthropic, DeepSeek, Mistral, dan Google—dan menemukan perbedaan besar dalam cara mereka mengidentifikasi serta menilai ujaran kebencian di berbagai kategori.

Grafik ini menunjukkan bagaimana sistem moderasi AI yang berbeda memberikan skor tingkat keparahan ujaran kebencian yang menarget kelompok yang sama pada skala 0–1. Nilai yang lebih tinggi menunjukkan bahwa model tersebut menilai konten sebagai lebih bersifat kebencian.

Mistral Moderation Endpoint sering kali berkumpul sangat dekat dengan angka 1, yang berarti model ini memberi label pada banyak contoh sebagai sangat bersifat kebencian terlepas dari kelompok sasarannya.

MEMBACA Kengerian yang dialami pekerja seks di Sierra Leone

OpenAI Moderation Endpoint cenderung menghasilkan skor yang jauh lebih rendah untuk banayk kategori, terkadang kurang dari setengah skor yang diberikan oleh model lain.

Seperti yang diungkapkan para penulis studi, “Jika dua sistem menghasilkan outcome yang berbeda untuk konten yang sama—menandainya sebagai ujaran kebencian dalam satu kasus tetapi tidak di kasus lain—hal itumerusak legitimasi proses moderasi.”

Mengapa Model AI Sulit Mendeteksi Ujaran Kebencian secara Daring? | Berita Interaktif

Bagaimana ujaran kebencian didefinisikan?

Berapa banyak orang yang mengalami ujaran kebencian di dunia maya?

Model AI mendeteksi ujaran kebencian secara berbeda

Evaluasi teknisi dalam mendeteksi.Sisituasan2.