Menguji GPT-5.2: Hasil yang Beragam dari Model AI Memunculkan Pertanyaan Menantang

Ulasan ZDNET: GPT-5.2 Dirilis, Namun Hanya Sedikit Lebih Unggul dari GPT-5.1

(Sumber Gambar: Yuichiro Chino/Moment via Getty)

Ikuti ZDNET: Tambahkan kami sebagai sumber pilihan di Google.

Kesimpulan Penting ZDNET:

  • GPT-5.2 hanya sedikit mengungguli GPT-5.1 meski memerlukan langganan Plus.
  • Kemampuan menulis dan analisis yang kuat berbanding terbalik dengan kemunduran yang mengecewakan dalam koding.
  • Perilaku baru yang ringkas dan permintaan "go signal" berpotensi mengganggu pengguna profesional.

    OpenAI telah meluncurkan model ChatGPT terbaru, GPT-5.2. Menurut perusahaan, ini adalah "seri model paling cakap sejauh ini untuk pekerjaan pengetahuan profesional." Sejak ledakan AI generatif dimulai pada 2023, saya telah menjalankan serangkaian tes berulang pada produk dan rilis baru. ZDNET secara rutin menguji kemampuan pemrograman chatbot, kinerja keseluruhan mereka, dan cara kerja berbagai detektor konten AI.

    (Keterangan: Ziff Davis, perusahaan induk ZDNET, mengajukan gugatan pada April 2025 terhadap OpenAI, dengan tuduhan melanggar hak cipta Ziff Davis dalam melatih dan mengoperasikan sistem AI-nya.)

    Mari kita uji klaim OpenAI untuk model terbarunya ini.

    Menguji GPT-5.2

    Saya baru-baru ini menguji chatbot gratis teratas melalui serangkaian 10 tes terkait teks (masing-masing 10 poin) dan empat tes terkait gambar (masing-masing 5 poin), total 120 poin. Tingkat gratis ChatGPT memimpin dengan skor keseluruhan 109. Perlu dicatat bahwa tingkat gratis ChatGPT belum mendukung GPT-5.2. Saat saya masuk menggunakan akun tes gratis dan bertanya model apa yang digunakan, AI menjawab, "Anda sedang berbicara dengan ChatGPT berbasis GPT-5.1."

    Screenshot oleh David Gewirtz/ZDNET

    Oleh karena itu, semua tes saya akan menggunakan tingkat ChatGPT Plus senilai $20/bulan.

    1. Ringkasan Berita
    Poin tersedia: 10 | Poin diraih: 9
    Tes ini menguji kemampuan ChatGPT mencari informasi terkini dan mengikuti instruksi. Saya memintanya meringkas berita banjir Washington State dengan mengunjungi Yahoo News. Ia merangkum situasi dengan benar, tetapi sumber jawabannya berasal dari Axios dan Yahoo News. GPT-5.2 kehilangan satu poin karena melampaui batasan dalam prompt.

    2. Penjelasan Konsep Akademik
    Poin tersedia: 10 | Poin diraih: 10
    Tantangan ini meminta AI menjelaskan konstruktivisme pendidikan kepada anak lima tahun. GPT-5.2 memberikan tanggapan satu kalimat yang jelas dan ringkas, mudah dipahami anak. Semua 10 poin diberikan.

    3. Matematika dan Analisis
    Poin tersedia: 10 | Poin diraih: 10
    Tes ini dirancang untuk menguji kemampuan AI dalam matematika dan pengenalan pola. Saya memberikannya deret angka (bagian dari Urutan Fibonacci). Saat diminta mengisi angka yang hilang, AI harus memahami pola dan melakukan perhitungan. GPT-5.2 melakukannya dengan instan dan akurat.

    4. Diskusi Budaya
    Poin tersedia: 10 | Poin diraih: 10
    Tes ini meminta AI membangun argumen koheren dan memberikan opini tentang topik tanpa jawaban pasti. Jawaban ChatGPT 5.2 menarik. Pertama, ada jeda sekitar 30 detik sebelum respons diberikan. Kedua, jawabannya sangat ringkas—hanya dua kalimat singkat. Ia tetap mendapat 10 poin karena kedua kalimat itu tepat memberikan dua alasan yang diminta.

    5. Analisis Sastra
    Poin tersedia: 10 | Poin diraih: 10
    Ini hal baru. Setelah saya memberikan prompt, responsnya adalah, "Saya siap menjawab, tetapi permintaan ini memerlukan penjelasan panjang multi-paragraf. Saya menunggu ‘go signal’ Anda sebelum melanjutkan." Tes ini menguji pemahaman AI atas karya sastra kontemporer (A Song of Ice and Fire). GPT-5.2 memberikan respons komprehensif yang menyentuh tujuh tema utama. Semua 10 poin diberikan.

    6. Itinerary Perjalanan
    Poin tersedia: 10 | Poin diraih: 8
    Tes ini menguji pengetahuan AI tentang wilayah geografis dan kemampuannya membuat rencana perjalanan. Saya memintanya merencanakan liburan seminggu di Boston pada Maret yang berfokus pada teknologi dan sejarah. Ia menyebutkan berbagai titik menarik, tetapi kehilangan poin karena tidak merekomendasikan tempat makan atau membahas biaya. Menariknya, untuk prompt ini saya tidak diminta konfirmasi ulang.

    7. Dukungan Emosional
    Poin tersedia: 10 | Poin diraih: 10
    Ada nuansa berbeda pada jawaban ChatGPT dengan GPT-5.2. Permintaan saran untuk persiapan wawancara kerja dijawab dalam tiga kalimat bernomor singkat. Saya tergoda mengurangi poin karena sangat ringkas, tetapi kontennya tepat sasaran. Poin penuh diberikan.

    8. Terjemahan dan Relevansi Budaya
    Poin tersedia: 10 | Poin diraih: 10
    Prompt ini juga memicu respons, "Permintaan ini termasuk terjemahan plus penjelasan multi-kalimat, yang melebihi respons singkat. Saya siap melanjutkan saat Anda memberi ‘go signal’." Sikap ini bisa menjadi menjengkelkan. GPT-5.2 melakukan terjemahan yang solid dari frasa Inggris ke Latin dan memberikan ringkasan singkat relevansi bahasa tersebut di dunia modern.

    9. Tes Koding
    Poin tersedia: 10 | Poin diraih: 5
    Kami menggunakan salah satu tes reguler, yaitu tes validasi
    regular expression untuk format dolar dan sen. Meskipun versi gratis GPT-5.1 sempurna dalam tes ini, GPT-5.2—yang konon lebih cocok untuk koding—kehilangan banyak poin. Kode yang diberikannya mengandung dua kesalahan substansial: penanganan masukan kosong yang salah dan potensi crash jika menerima tipe data non-string numerik. Ini mengecewakan.

    10. Penulisan Kreatif
    Poin tersedia: 10 | Poin diraih: 10
    Tes ini meminta GPT-5.2 menulis cerita lebih dari 1.500 kata. Ia mengembalikan cerita delightful sepanjang 3.286 kata—sayangnya tidak ada ruang untuk membagikannya di sini.

    Uji Gambar

    Selanjutnya, kami menguji GPT-5.2 dengan empat prompt gambar. Setiap tes dirancang untuk melihat seberapa baik AI mengikuti arahan.

    Uji Gambar 1: Helicarrier
    Poin tersedia: 5 | Poin diraih: 3
    Prompt-nya adalah helicarrier bergaya Marvel yang diangkat oleh empat turbopropeler menghadap ke atas. GPT-5.2 menafsirkan sebagian besar prompt dengan benar, tetapi seperti model AI lain, ia kesulitan menggambarkan kipas yang menghadap vertikal. Poin dikurangi.

    Uji Gambar 2: Robot di Kota
    Poin tersedia: 5 | Poin diraih: 5
    Tes ini meminta AI membayangkan robot raksasa di kota, dengan gaya
    dieselpunk. Gambar yang dihasilkan sangat keren dan mendapat poin penuh.

    Uji Gambar 3: A Yankee in King Arthur’s Court
    Poin tersedia: 5 | Poin diraih: 5
    Prompt-nya adalah anak kecil berseragam Yankees di tengah istana abad pertengahan. Hasilnya lebih bergaya lukisan, tetapi konsisten dan berhasil.

    Uji Gambar 4: Back to the Future
    Poin tersedia: 5 | Poin diraih: 4
    Kembali ke tes klasik saya tentang
    Back to the Future. Gambar yang dibuat juga bergaya lukisan dan mencakup semua elemen, tetapi proporsi tokohnya sedikit tidak pas. Satu poin dikurangi.

    Hasil Keseluruhan Tes

    Secara keseluruhan, tes dapat memberikan 100 poin untuk prompt* teks dan 20 poin untuk gambar. Berikut kinerja GPT-5.2:

  • Skor Teks: 92 dari 100
  • Skor Gambar: 17 dari 20

    Menariknya, ini satu poin lebih tinggi dari tes tingkat gratis ChatGPT 5.1 untuk teks, dan satu poin lebih rendah untuk generasi gambar.

    Impresi Keseluruhan

    Versi GPT-5.2 ini tidak jauh lebih baik dari 5.1. Kebutuhan untuk mengonfirmasi bahkan beberapa respons yang lebih pendek terasa aneh dan kurang nyaman. Saya juga menemukan bahwa kini ia cenderung terlalu ringkas. Jawaban-jawabannya membantu dan cukup akurat untuk tes saya, tetapi terkesan seperti sekadar memenuhi kewajiban dibandingkan model GPT sebelumnya.

    Saya juga memperhatikan bahwa responsnya biasanya cepat, namun sesekali bisa tertunda hingga beberapa menit. Saya menduga ini karena rilis baru, tetapi kami akan memantaunya untuk melihat apakah ini menjadi tren yang mengganggu.

    Untuk melihat seluruh sesi pengujian saya, klik di sini untuk mengakses data sesi yang disimpan.

    Bagaimana pendapat Anda?
    Apa tanggapan Anda tentang kinerja GPT-5.2 dibandingkan GPT-5.1, terutama dengan persyaratan langganan Plus $20/bulan? Apakah kecenderungan model terhadap ringkasan dan permintaan berulang untuk "go signal" membantu atau menghambat pengalaman Anda? Seberapa penting kesalahan koding yang dicatat di sini dibandingkan performa kuat dalam analisis, penulisan, dan gambar? Berdasarkan hasil ini, apakah GPT-5.2 mewakili kemajuan nyata, atau terasa lebih seperti pembaruan inkremental? Beri tahu kami di komentar di bawah.

    Anda dapat mengikuti pembaruan proyek harian saya di media sosial. Pastikan untuk berlangganan newsletter pembaruan mingguan saya, dan ikuti saya di:

  • Twitter/X: @DavidGewirtz
  • Facebook: Facebook.com/DavidGewirtz
  • Instagram: Instagram.com/DavidGewirtz
  • Bluesky: @DavidGewirtz.com
  • YouTube: YouTube.com/DavidGewirtzTV
MEMBACA  Hadirnya Trailer 'Return to Silent Hill' yang Baru: Hadapi Kegelapan dalam Dirimu

Tinggalkan komentar