Banyak orang dan lembaga sedang berusaha menghadapi akibat dari teks yang ditulis oleh AI. Guru-guru ingin tahu apakah pekerjaan siswa itu benar-benar menunjukkan pemahaman mereka sendiri; konsumen ingin tahu apakah sebuah iklan dibuat oleh manusia atau mesin.
Membuat aturan untuk mengatur penggunaan konten buatan AI sebenarnya cukup mudah. Tapi untuk menjalankan aturan itu tergantung pada sesuatu yang lebih sulit: mendeteksi dengan pasti apakah sebuah teks dibuat oleh kecerdasan buatan.
Beberapa penelitian sudah meneliti apakah manusia bisa mendeteksi teks buatan AI. Contohnya, orang-orang yang sering menggunakan alat tulis AI ternyata bisa mendeteksi teks AI dengan akurat. Sekelompok penilai manusia bahkan bisa lebih baik dari alat otomatis dalam suasana yang terkontrol. Tapi, keahlian seperti ini tidak dimiliki semua orang, dan penilaian seseorang bisa tidak konsisten. Lembaga yang perlu kepastian dalam skala besar akhirnya beralih ke pendeteksi teks AI otomatis.
Masalah dalam mendeteksi teks AI
Cara kerja dasar pendeteksi teks AI cukup gampang dijelaskan. Mulai dari sebuah teks yang asalnya ingin kamu ketahui. Lalu pakai alat deteksi, yang sering kali adalah sistem AI juga, yang menganalisis teks dan memberikan nilai, biasanya dalam bentuk kemungkinan, yang menunjukkan seberapa mungkin teks itu dibuat oleh AI. Nilai ini lalu digunakan untuk mengambil keputusan, seperti apakah akan memberikan hukuman karena melanggar aturan.
Tapi, penjelasan sederhana ini menyembunyikan banyak kerumitan. Ada banyak asumsi yang harus dijelaskan dengan jelas. Apakah kamu tahu alat AI apa yang mungkin digunakan untuk membuat teks itu? Akses seperti apa yang kamu punya ke alat-alat itu? Bisakah kamu menjalankannya sendiri, atau melihat cara kerjanya? Berapa banyak teks yang kamu punya? Apakah cuma satu teks atau kumpulan tulisan dari waktu ke waktu? Apa yang bisa dan tidak bisa diberitahukan oleh alat deteksi AI sangat tergantung pada jawaban pertanyaan-pertanyaan seperti ini.
Ada satu hal lagi yang sangat penting: Apakah sistem AI yang membuat teks itu sengaja menyisipkan tanda untuk memudahkan deteksi nanti?
Tanda-tanda ini dikenal sebagai watermark. Teks yang ada watermarknya terlihat seperti teks biasa, tapi tandanya tersembunyi dengan cara yang halus dan tidak terlihat kalau hanya dilihat sekilas. Seseorang yang punya kunci yang benar bisa nanti memeriksa ada tidaknya tanda-tanda ini dan memastikan bahwa teks itu berasal dari sumber AI yang diberi watermark. Tapi, pendekatan ini bergantung pada kerja sama dari penjual AI dan tidak selalu tersedia.
Cara kerja alat pendeteksi teks AI
Satu cara yang jelas adalah menggunakan AI sendiri untuk mendeteksi teks yang ditulis AI. Idonya sederhana. Mulai dengan mengumpulkan banyak contoh tulisan yang sudah diberi label sebagai tulisan manusia atau buatan AI, lalu latih sebuah model untuk membedakan keduanya. Pada dasarnya, pendeteksi teks AI diperlakukan seperti masalah klasifikasi biasa, mirip seperti menyaring spam. Setelah dilatih, pendeteksi akan memeriksa teks baru dan menebak apakah teks itu lebih mirip contoh buatan AI atau tulisan manusia yang pernah dilihatnya sebelumnya.
Pendekatan dengan detektor yang dilatih ini bisa bekerja bahkan jika kamu tidak tahu banyak tentang alat AI apa yang mungkin digunakan. Syarat utamanya adalah kumpulan data latihannya harus cukup beragam untuk mencakup hasil dari berbagai macam sistem AI.
Tapi kalau kamu memang punya akses ke alat AI yang kamu khawatirkan, cara lain bisa digunakan. Strategi kedua ini tidak bergantung pada mengumpulkan data berlabel dalam jumlah besar atau melatih detektor terpisah. Sebaliknya, carinya adalah mencari sinyal statistik dalam teks, sering kali terkait dengan cara model AI tertentu membuat bahasa, untuk menilai apakah teks itu kemungkinan dibuat oleh AI. Contohnya, beberapa metode memeriksa kemungkinan yang diberikan oleh sebuah model AI terhadap sebuah teks. Jika model itu memberikan kemungkinan yang sangat tinggi untuk urutan kata yang tepat, ini bisa menjadi sinyal bahwa teks itu sebenarnya dibuat oleh model tersebut.
Terakhir, untuk teks yang dibuat oleh sistem AI yang menyisipkan watermark, masalahnya bergeser dari pendeteksian menjadi verifikasi. Menggunakan kunci rahasia dari penjual AI, alat verifikasi bisa menilai apakah teks itu konsisten dengan teks yang dibuat oleh sistem yang memakai watermark. Pendekatan ini bergantung pada informasi yang tidak tersedia dari teks saja, bukan pada kesimpulan yang ditarik dari teks itu sendiri. https://www.youtube.com/embed/oUgfQAaRL6Y?wmode=transparent&start=0 Insinyur AI Tom Dekan menunjukkan betapa mudahnya pendeteksi teks AI komersial bisa dikalahkan.
Keterbatasan alat pendeteksi
Setiap jenis alat punya keterbatasannya sendiri, sehingga sulit untuk menyatakan ada pemenang yang jelas. Detektor berbasis pembelajaran, contohnya, sensitif terhadap seberapa mirip teks baru dengan data yang digunakan untuk melatihnya. Akurasinya turun ketika teksnya sangat berbeda dari data latihan, yang bisa cepat menjadi ketinggalan zaman saat model AI baru dirilis. Terus-menerus mengumpulkan data baru dan melatih ulang detektor itu mahal, dan detektor pasti akan tertinggal dari sistem yang seharusnya mereka identifikasi.
Uji statistik menghadapi kendala yang berbeda. Banyak yang bergantung pada asumsi tentang cara model AI tertentu menghasilkan teks, atau pada akses ke distribusi kemungkinan model-model itu. Ketika modelnya tertutup, sering diperbarui, atau tidak diketahui, asumsi-asumsi ini jadi tidak berlaku. Akibatnya, metode yang bekerja baik dalam pengaturan terkontrol bisa menjadi tidak dapat diandalkan di dunia nyata.
Watermarking menggeser masalah dari pendeteksian ke verifikasi, tapi ini menciptakan ketergantungan baru. Ini bergantung pada kerja sama dari penjual AI dan hanya berlaku untuk teks yang dibuat dengan watermark yang diaktifkan.
Secara lebih luas, pendeteksian teks AI adalah bagian dari perlombaan senjata yang terus meningkat. Alat deteksi harus tersedia untuk publik agar berguna, tapi transparansi yang sama juga memungkinkan orang menghindarinya. Saat pembuat teks AI semakin canggih dan teknik penghindaran semakin maju, detektor kecil kemungkinan akan unggul untuk selamanya.
Kenyataan yang sulit
Masalah pendeteksian teks AI mudah dijelaskan tapi sulit diselesaikan dengan andal. Lembaga-lembaga dengan aturan tentang penggunaan teks buatan AI tidak bisa mengandalkan alat deteksi saja untuk menjalankannya.
Saat masyarakat beradaptasi dengan AI generatif, kita mungkin akan menyempurnakan norma-norma tentang penggunaan teks buatan AI yang bisa diterima dan meningkatkan teknik pendeteksian. Tapi pada akhirnya, kita harus belajar menerima kenyataan bahwa alat-alat seperti ini tidak akan pernah sempurna.
Ambuj Tewari, Profesor Statistik, Universitas Michigan
Artikel ini diterbitkan ulang dari The Conversation dengan lisensi Creative Commons. Baca artikel aslinya.