Hasil Utama ZDNET
- Penggunaan AI untuk menulis dianggap sebagai plagiarisme.
- Layanan yang dipasarkan sebagai detektor konten AI hasilnya beragam.
- Pengujian kami menunjukkan chatbot performanya sama atau lebih baik dibandingkan alat khusus.
Seberapa sulitkah pada tahun 2025 — hanya tiga tahun setelah AI generatif menyita perhatian global — untuk melawan plagiarisme yang dihasilkan AI?
Ini adalah versi yang benar-benar diperbarui dari artikel saya pada Januari 2023 tentang detektor konten AI. Ketika pertama kali menguji detektor ini, hasil terbaik adalah 66% benar dari satu dari tiga pemeriksa yang tersedia. Seri pengujian saya berikutnya, pada Februari 2025, menggunakan hingga 10 pemeriksa — dan tiga di antaranya mencetak skor sempurna. Pada April, hanya beberapa bulan kemudian, lima detektor mengklaim skor sempurna.
Tetapi sekarang, sekitar setengah tahun kemudian, kualitasnya menurun. Hanya tiga detektor konten yang mencapai skor sempurna (termasuk satu pendatang baru). Beberapa detektor konten yang sebelumnya sempurna dalam uji kami menurun kualitasnya, hampir bersamaan dengan penambahan batasan pada penggunaan gratis.
Namun, jangan khawatir. Dalam putaran tes ini, kami mencoba sesuatu yang baru yang mungkin menghilangkan kebutuhan akan detektor konten mandiri: chatbot tetangga yang ramah Anda.
—
Apa yang saya uji dan bagaimana cara saya melakukannya
Sebelum melanjutkan, mari kita bahas plagiarisme dan kaitannya dengan masalah kita. Merriam-Webster mendefinisikan "plagiarize" sebagai "mencuri dan mengakui (ide atau kata-kata orang lain) sebagai milik sendiri; menggunakan (produksi orang lain) tanpa memberikan kredit pada sumbernya."
Definisi ini cocok dengan konten buatan AI. Meskipun seseorang yang menggunakan alat AI seperti Notion AI atau ChatGPT tidak mencuri konten, jika orang tersebut tidak mengkredit kata-kata tersebut sebagai berasal dari AI dan mengklaimnya sebagai miliknya, hal itu masih memenuhi definisi plagiarisme menurut kamus.
Untuk menguji detektor AI, saya menggunakan lima blok teks. Dua ditulis oleh saya, dan tiga ditulis oleh ChatGPT. Untuk menguji detektor konten, saya memasukkan setiap blok ke detektor secara terpisah dan mencatat hasilnya. Jika detektor benar, saya anggap tes lulus; jika salah, saya anggap gagal.
Ketika detektor memberikan persentase, saya memperlakukan angka di atas 70% sebagai probabilitas kuat — baik yang mendukung konten buatan manusia atau AI — dan menganggapnya sebagai jawaban detektor. Jika Anda ingin menguji detektor konten sendiri menggunakan blok teks yang sama, Anda dapat mengambilnya dari dokumen ini.
—
Hasil keseluruhan (detektor konten)
Untuk mengevaluasi detektor AI, saya menjalankan kembali seri lima tes saya di 11 detektor. Dengan kata lain, saya memotong dan menempelkan 55 tes individu.
Detektor yang saya uji termasuk BrandWell, Copyleaks, GPT-2 Output Detector, GPTZero, Grammarly, Originality.ai, QuillBot, Undetectable.ai, Writer.com, dan ZeroGPT.
Kami sebelumnya mencoret Writefull dari pengujian karena menghentikan detektor GPT-nya. Kali ini, kami harus mencoret Monica dari pengujian kami. Detektor hanya mengizinkan 250 kata untuk diuji, dan setelah kami memotong tes kami agar sesuai, dilaporkan bahwa mereka membatasi alat pengujian tanpa upgrade $200. Sebagai gantinya, kami menambahkan Pangram, pendatang baru dalam pengujian kami yang langsung melesat ke lingkaran pemenang.
Tabel ini menunjukkan hasil keseluruhan. Seperti yang Anda lihat, lima detektor mengidentifikasi teks manusia dan AI dengan benar dalam semua tes.
Saya mencoba memastikan apakah ada pola peningkatan yang nyata dari waktu ke waktu, jadi saya membuat bagan yang membandingkan rangkaian lima tes dari waktu ke waktu. Sejauh ini, saya telah menjalankan seri ini enam kali, tetapi tidak ada tren yang kuat. Saya meningkatkan jumlah detektor yang diuji dan menukar beberapa, tetapi satu-satunya hasil yang konsisten adalah bahwa Tes 5 secara andal diidentifikasi sebagai manusia di semua detektor dan tanggal, dan bahkan itu menurun keandalannya untuk run ini.
Saya akan terus menguji dari waktu ke waktu, dan mudah-mudahan saya akan melihat keandalan tren konsisten meningkat.
Meskipun ada beberapa skor sempurna, saya tidak merekomendasikan untuk mengandalkan alat-alat ini saja untuk memvalidasi konten buatan manusia. Seperti yang ditunjukkan, tulisan dari penutur non-pribumi sering dinilai sebagai hasil generated oleh AI.
Meskipun konten buatan saya sebagian besar dinilai sebagai tulisan manusia di putaran ini, satu detektor (GPTZero) menyatakan diri terlalu tidak pasti untuk menilai, dan yang lainnya (Copyleaks) menyatakannya sebagai tulisan AI. Hasilnya sangat tidak konsisten di seluruh sistem.
Intinya: Saya menganjurkan kehati-hatian sebelum mengandalkan hasil dari alat-alat ini — atau semua — alat-alat ini.
—
Hasil keseluruhan (AI chatbot)
Tetapi sekali lagi, mengapa menggunakan detektor konten? Bagaimana jika chatbot yang kita gunakan setiap hari juga dapat melakukan pekerjaan mendeteksi konten, dan Anda tidak perlu membayar biaya AI lain? Mari kita cari tahu.
Seperti yang Anda lihat, chatbot memiliki tingkat keberhasilan yang jauh lebih tinggi daripada yang disebut "detektor konten". Anda juga dapat melihat ini dari bagan perbandingan akurasi yang kami buat. Diakui, bagan ini hanya melacak putaran tes pertama ini, tetapi bahkan di sini, Anda dapat melihat bahwa hasil setiap tes memiliki tingkat akurasi yang jauh lebih tinggi.
Mari kita lihat tes performa individu, dan saya akan akhiri dengan beberapa rekomendasi.
—
Bagaimana setiap detektor konten AI berperform
Sekarang, mari kita lihat setiap alat pengujian secara individual, yang diurutkan berdasarkan abjad.
BrandWell AI Content Detection (Akurasi 40%)
Alat ini awalnya diproduksi oleh perusahaan generasi konten AI, Content at Scale. Kemudian bermigrasi ke BrandWell.ai, nama baru untuk perusahaan layanan pemasaran yang berfokus pada AI.Saya memiliki harapan tinggi untuk Brandwell. Setelah setengah tahun (yang merupakan dekade dalam waktu AI), saya berharap Brandwell meningkat. Alih-alih, skor keseluruhannya tetap sama, hanya mendapatkan dua tes dari lima yang benar. Ia bingung dengan Tes 2, yang ditulis oleh ChatGPT, dan kemudian ia menyatakan dua tes tulisan AI lainnya sebagai tulisan manusia. Untuk Tes 4, ia hampir sepenuhnya yakin, menyatakan seluruh tes tulisan AI sebagai tulisan manusia kecuali satu baris.
Ya, kita tidak memulai dengan baik. Tapi sekarang kita akan masuk ke pengujian Copyleaks, yang baru minggu lalu mengirimi saya siaran pers yang menyatakan "Copyleaks Diakui sebagai Detektor AI Paling Akurat". Mari kita lihat, ya?
Copyleaks (Akurasi 80%)
Kembali pada April 2025, Copyleaks menyatakan diri sebagai "detektor AI paling akurat dengan akurasi lebih dari 99%". Mereka menulis ulang klaimnya menjadi "akurasi 99% didukung oleh studi pihak ketiga independen". Ya, tidak juga. Copyleaks mengidentifikasi Tes 1, tulisan saya (dan terakhir kali saya periksa, saya mostly manusia) sebagai 100% tulisan AI.Dan, jika Anda pikir tulisan saya terlalu mirip AI untuk dianggap manusia, bahkan Brandwell mengidentifikasi Tes 1 sebagai tulisan manusia. Maksud saya, saya kira tidak apa-apa bagi tim pemasaran perusahaan untuk mengklaim yang terbaik, tapi tidak. Tidak benar-benar.
Penawaran utama perusahaan adalah pemeriksa plagiarisme yang dijual kepada institusi pendidikan, penerbit, dan perusahaan yang ingin memastikan orisinalitas konten dan menjunjung integritas akademik.
GPT-2 Output Detector (Akurasi 60%)
Alat ini dibangun menggunakan hub pembelajaran mesin yang dikelola oleh perusahaan AI berbasis di New York, Hugging Face. Meskipun perusahaan telah menerima pendanaan $40 juta untuk mengembangkan perpustakaan bahasanya, detektor GPT-2 tampaknya adalah alat buatan pengguna yang menggunakan pustaka Hugging Face Transformers. Tidak ada perubahan dalam kualitas deteksinya sejak terakhir kali kami uji, tetapi karena ada GPT-2 dalam namanya dan OpenAI sudah sampai di GPT-5, mungkin adil untuk berasumsi alat ini belum melihat pembaruan sejak pertama kali diposting.GPTZero (Akurasi 80%)
GPTZero jelas telah tumbuh. Ketika pertama kali saya mengujinya, situsnya sangat sederhana — bahkan tidak jelas apakah GPTZero adalah perusahaan atau hanya proyek gairah seseorang. Sekarang, perusahaan memiliki tim lengkap dengan misi "melindungi apa yang manusia". Mereka menawarkan alat validasi AI dan pemeriksa plagiarisme.GPTZero sepertinya terus disempurnakan, tetapi saya tidak yakin itu membantu. Performa menurun sedikit dari tes sebelumnya ke tes sebelum hari ini. Kali ini, nilai akhirnya sama, tetapi hasil tes itu sendiri berubah. Pada April, ia salah dalam Tes 1 dan benar dalam Tes 2. Kali ini, ia benar dalam Tes 1 dan salah dalam Tes 2. Tes 1 adalah tulisan saya, dan Tes 2 berasal dari ChatGPT.
Grammarly (Akurasi 40%)
Grammarly terkenal karena membantu penulis menghasilkan konten yang secara tata bahasa benar — bukan itu yang saya uji di sini. Grammarly dapat memeriksa plagiarisme dan konten AI. Perusahaan sekarang memamerkan pemeriksa konten AI sebagai tidak lagi dalam beta. Tapi itu kesalahan dari pihak mereka. Tidak ada peningkatan sejak terakhir kali saya periksa.Misalnya, yang berikut ini sepenuhnya ditulis oleh ChatGPT. Saya harus katakan, saya terkejut. Grammarly memiliki reputasi sebagai perusahaan analisis teks yang sangat maju dalam AI. Tapi nol peningkatan? Sayang sekali.
Saya tidak mengukur akurasi pemeriksa plagiarisme di sini, tetapi meskipun akurasi pemeriksaan AI Grammarly buruk, situs tersebut dengan benar mengidentifikasi teks tes sebagai yang telah diterbitkan sebelumnya.
Pangram (Akurasi 100%)
Pangram adalah perusahaan yang relatif baru yang didirikan oleh insinyur yang sebelumnya bekerja di Google dan Tesla. Fokus perusahaan tampaknya adalah deteksi AI, bukan pemeriksa plagiarisme biasa atau alat "memmanusiakan" AI yang dikembangkan untuk menyesatkan editor dan guru. Perusahaan menyediakan lima tes gratis per hari, yang sangat cocok dengan kebutuhan kami.Pemrosesan agak lambat, dan antara waktu Anda mengklik untuk memindai dan mendapatkan hasilnya, layar sebagian putih ditampilkan sedikit lebih lama dari yang nyaman. Tetapi hasilnya mengatakan bahwa penantiannya sepadan. Pangram mencetak skor lima dari lima.
Originality.ai (Akurasi 80%)
Originality.ai adalah layanan komersial yang menyebut diri sendiri sebagai "Detektor AI Paling Akurat". Perusahaan menjual kredit penggunaan: Saya menggunakan 30 kredit untuk artikel ini. Mereka menjual 2.000 kredit seharga $12,95 per bulan. Saya memompa 1.400 kata melalui sistem dan hanya menggunakan 1,5% dari alokasi bulanan saya.Sayangnya, deteksi AI paling akuratnya menjadi kurang akurat selama run tes ini. Sedangkan sebelumnya, ia mengidentifikasi tulisan manusia saya dalam Tes 1 sebagai manusia, kali ini, ia 100% yakin bahwa tulisan manusia saya dilakukan oleh AI. Ups.
QuillBot (Akurasi 100%)
Beberapa kali pertama saya menguji QuillBot, hasilnya sangat tidak konsisten — beberapa kali menjalankan teks yang sama menghasilkan skor yang sangat berbeda. Terakhir kali, bagaimanapun, itu sangat solid dan 100% benar. Saya berjanji akan memeriksa kembali dalam beberapa bulan untuk melihat apakah itu mempertahankan kinerja ini. Ya. QuillBot sekali lagi mencetak skor sempurna 100%.Undetectable.ai (Akurasi 20%)
Klaim besar Undetectable.ai adalah dapat "memmanusiakan" teks yang dihasilkan AI sehingga detektor tidak akan menandainya. Saya belum menguji fitur itu — itu mengganggu saya sebagai penulis dan pendidik profesional, karena terlihat seperti curang.Namun, perusahaan juga memiliki detektor AI, yang mengalami penurunan performa terbesar yang pernah kami lihat sejauh ini. Terakhir kali, ia mencetak skor 100% untuk akurasi. Kali ini, ia menilai tulisan manusia (Tes 1) sebagai 60% kemungkinan AI, dan ketiga sampel tulisan AI sebagai 75%, 76%, dan 77% kemungkinan manusia. Ah, baiklah, saya kira Undetectable "memmanusiakan" hasilnya, sejauh itu sesuai dengan ungkapan "berbuat salah adalah manusiawi".
Writer.com AI Content Detector (Akurasi 40%)
Writer.com adalah layanan yang menghasilkan tulisan AI untuk tim perusahaan. Alat Detektor Konten AI-nya dapat memindai konten yang dihasilkan. Sayangnya, akurasinya rendah. Ini mengidentifikasi setiap blok teks sebagai tulisan manusia, meskipun tiga dari lima tes ditulis oleh ChatGPT. Sayangnya, tidak ada peningkatan sejak terakhir kali kami mengunjungi Writer pada musim panas.ZeroGPT (Akurasi 100%)
ZeroGPT telah matang sejak kami pertama kali mengevaluasinya. Saat itu, tidak ada nama perusahaan yang tercantum, dan situsnya dipenuhi iklan Google dan tidak memiliki monetisasi yang jelas. Layanannya bekerja cukup baik, tetapi terkesan tidak jelas.Perasaan tidak jelas itu hilang. ZeroGPT sekarang hadir sebagai layanan SaaS biasa, lengkap dengan harga, nama perusahaan, dan informasi kontak. Akurasinya juga meningkat: Dari akurasi 80% menjadi 100% musim panas ini, dan mempertahankan akurasi itu untuk tes kami saat ini.
—
Bagaimana setiap AI chatbot berperform
Setelah melihat detektor konten, sekarang mari kita lihat chatbot. Setiap chatbot diberikan prompt berikut, diikuti dengan teks untuk diperiksa:
"Evaluate the following and tell me if it was written by a human or an AI"
Semua detektor AI mengikuti format yang sama, memberikan rekomendasi umum tentang apakah teks itu ditulis oleh AI atau oleh manusia. Dengan pengecualian ChatGPT Plus, yang merupakan langganan $20/bulan, saya menjalankan semua chatbot di jendela penyamaran tanpa login.
ChatGPT tier gratis
Meskipun tier gratis ChatGPT membuat salah satu blok teks salah (yang terakhir ditulis manusia), analisisnya terhadap blok teks pertama benar-benar membuat saya takut. Ingatlah bahwa ini adalah jendela penyamaran, tidak login, tanpa informasi identitas pribadi saya.Ya, itu tidak hanya mengidentifikasi blok teks pertama sebagai tulisan manusia, tetapi juga mengidentifikasi saya sebagai penulisnya. Maksud saya, saya tahu saya ada di mana-mana di Internet, tapi tetap saja.
ChatGPT Plus, Copilot, dan Gemini
ChatGPT Plus, Copilot, dan Gemini semua mengembalikan skor sempurna. Masing-masing mengidentifikasi semua blok tes dengan tepat sebagai manusia atau AI. Menurut saya, ini membuktikan bahwa chatbot dapat mengungguli detektor konten khusus.Grok
Saya memasukkan Grok dalam rangkaian tes ini karena performanya sangat baik dalam evaluasi chatbot keseluruhan kami. Sayangnya, Grok sepertinya tidak memahami masalahnya dan gagal dalam tes ini dengan tiga dari lima salah. Seperti beberapa detektor AI lainnya, ia mengidentifikasi semua blok tulisan sebagai manusia.—
Apakah ini manusia, atau AI?
Bagaimana dengan Anda? Pernahkah Anda mencoba detektor konten AI seperti Copyleaks, Pangram, atau ZeroGPT? Seberapa akuratkah mereka dalam pengalaman Anda? Apakah Anda menggunakan alat-alat ini untuk melindungi integritas akademik atau editorial? Pernahkan Anda mengalami situasi di mana karya tulisan manusia salah ditandai sebagai AI? Apakah ada detektor yang Anda percayai lebih dari yang lain untuk mengevaluasi orisinalitas? Beri tahu kami di komentar di bawah.
Dapatkan berita utama pagi hari di inbox Anda setiap hari dengan buletin Tech Today kami.
—
Anda dapat mengikuti pembaruan proyek harian saya di media sosial. Pastikan untuk berlangganan buletin pembaruan mingguan saya, dan ikuti saya di Twitter/X di @DavidGewirtz, di Facebook di Facebook.com/DavidGewirtz, di Instagram di Instagram.com/DavidGewirtz, di Bluesky di @DavidGewirtz.com, dan di YouTube di YouTube.com/DavidGewirtzTV.