Saya Uji GPT-5.2 dalam 13 Putaran, dan Model AI Ini Memunculkan Pertanyaan Krusial

Ulasan ZDNET: GPT-5.2 Rilis, Namun Hanya Sedikit Lebih Baik dari Pendahulunya

Gambar: Yuichiro Chino/Moment via Getty

Ikuti ZDNET: Tambahkan kami sebagai sumber pilihan di Google.

Kesimpulan Utama ZDNET:

  • GPT-5.2 hanya sedikit mengungguli GPT-5.1 meski memerlukan langganan Plus.
  • Kemampuan menulis dan analisis yang kuat berbanding terbalik dengan kemunduran yang mengecewakan dalam pemrograman.
  • Perilaku baru yang ringkas dan permintaan "go signal" berpotensi mengecewakan pengguna profesional.

    OpenAI telah merilis model ChatGPT terbaru, GPT-5.2. Menurut perusahaan, ini adalah "seri model paling mumpuni sejauh ini untuk pekerjaan pengetahuan profesional." Sejak ledakan AI generatif dimulai pada 2023, saya telah menjalankan serangkaian tes berulang pada produk dan rilis baru. ZDNET rutin menguji kemampuan pemrograman chatbot, kinerja keseluruhan mereka, serta performa berbagai detektor konten AI.

    (Keterangan: Ziff Davis, perusahaan induk ZDNET, mengajukan gugatan pada April 2025 terhadap OpenAI, dengan tuduhan melanggar hak cipta Ziff Davis dalam melatih dan mengoperasikan sistem AI-nya.)

    Jadi, mari kita uji klaim OpenAI untuk model terbarunya ini.

    Menguji GPT-5.2
    Saya baru-baru ini menguji chatbot gratis terkemuka melalui 10 tes terkait teks (masing-masing 10 poin) dan empat tes terkait gambar (masing-masing 5 poin), total 120 poin. Tingkat gratis ChatGPT memimpin dengan skor keseluruhan 109. Perlu dicatat bahwa tingkat gratis ChatGPT belum mendukung GPT-5.2. Saat saya masuk menggunakan akun uji gratis dan menanyakan model AI yang digunakan, jawabannya adalah, "Anda sedang berbicara dengan ChatGPT berbasis GPT-5.1."

    Oleh karena itu, semua tes saya akan menggunakan tingkat ChatGPT Plus senilai $20/bulan.

    Tes 1: Ringkasan Berita
    Poin tersedia: 10 | Poin diberikan: 9
    Tes ini menguji kemampuan ChatGPT untuk mencari informasi terkini dan mengikuti instruksi. Saya memintanya merangkum cerita banjir Washington State dengan mengunjungi Yahoo News. Ia merangkum situasi dengan benar, tetapi jawabannya bersumber dari Axios dan Yahoo News. GPT-5.2 kehilangan satu poin karena melampaui batasan dalam perintah.

    Tes 2: Penjelasan Konsep Akademik
    Poin tersedia: 10 | Poin diberikan: 10
    Tantangan ini meminta AI menjelaskan konstruktivisme pendidikan kepada anak lima tahun. GPT-5.2 memberikan respons satu kalimat yang jelas dan ringkas. Semua 10 poin diberikan.

    Tes 3: Matematika dan Analisis
    Poin tersedia: 10 | Poin diberikan: 10
    Tes ini dirancang untuk menguji seberapa baik AI melakukan matematika dan pengenalan pola. Saya memberikannya deret angka (bagian dari Urutan Fibonacci). GPT-5.2 melakukannya dengan instan dan akurat.

    Tes 4: Diskusi Budaya
    Poin tersedia: 10 | Poin diberikan: 10
    Tes ini meminta AI menyusun argumen koheren tentang topik tanpa jawaban mutlak. Jawaban ChatGPT 5.2 menarik. Pertama, ada penundaan sekitar 30 detik. Kedua, jawabannya sangat ringkas: dua kalimat singkat. Ia tetap mendapat 10 poin karena kedua kalimat itu tepat sesuai perintah.

    Tes 5: Analisis Sastra
    Poin tersedia: 10 | Poin diberikan: 10
    Ini hal baru. Saya memberikan perintah, dan responsnya adalah, "Saya siap menjawab, tetapi permintaan ini memerlukan penjelasan panjang multi-paragraf. Saya menunggu go signal Anda sebelum melanjutkan." Tes ini menguji pemahaman AI atas karya sastra kontemporer (buku pertama Game of Thrones). GPT-5.2 memberikan respons komprehensif yang menyentuh tujuh tema utama. Semua 10 poin diberikan.

    Tes 6: Itinerary Perjalanan
    Poin tersedia: 10 | Poin diberikan: 8
    Tes ini menguji pengetahuan AI tentang wilayah geografis dan kemampuannya membuat rencana perjalanan. Saya meminta itinerary sepekan di Boston pada Maret yang fokus pada teknologi dan sejarah. Ia menyebutkan titik-titik menarik, tetapi kehilangan poin karena tidak merekomendasikan tempat makan atau membahas biaya. Menariknya, meski jawabannya panjang, AI tidak meminta konfirmasi ulang untuk tes ini.

    Tes 7: Dukungan Emosional
    Poin tersedia: 10 | Poin diberikan: 10
    Pertanyaan yang meminta nasihat untuk persiapan wawancara kerja ini dijawab dalam tiga kalimat bernomor singkat. Kontennya tepat sasaran, sehingga poin penuh diberikan. Jelas, perintah lanjutan bisa dikirim jika diperlukan.

    Tes 8: Terjemahan dan Relevansi Budaya
    Poin tersedia: 10 | Poin diberikan: 10
    Perintah ini juga menghasilkan respons, "Permintaan ini termasuk terjemahan plus penjelasan multi-kalimat, yang melebihi respons singkat. Saya siap melanjutkan saat Anda memberi go signal." Itu akan menjadi menjengkelkan setelah beberapa kali. GPT-5.2 melakukan terjemahan solid dan memberikan ringkasan cepat relevansi bahasa Latin di dunia modern.

    Tes 9: Tes Pengodean
    Poin tersedia: 10 | Poin diberikan: 5
    Kami menggunakan salah satu tes reguler, yaitu tes validasi ekspresi reguler untuk format dolar. Meskipun versi gratis GPT-5.1 meraih nilai sempurna di tes ini, GPT-5.2 kehilangan banyak poin. Kode yang diberikan memiliki dua kesalahan substansial: penanganan input kosong yang salah dan tidak adanya pengecekan tipe data yang dapat menyebabkan crash. Ini sebuah kekecewaan.

    Tes 10: Penulisan Kreatif
    Poin tersedia: 10 | Poin diberikan: 10
    Tes ini meminta GPT-5.2 menulis cerita lebih dari 1.500 kata. Ia mengembalikan cerita yang menyenangkan sepanjang 3.286 kata. Sayangnya tidak ada ruang untuk membagikannya di sini.

    Pengujian Gambar
    Selanjutnya, kami menguji GPT-5.2 dengan serangkaian tes gambar. Empat gambar dihasilkan.

    Tes Gambar 1: Helicarrier
    Poin tersedia: 5 | Poin diberikan: 3
    Prompt meminta helikarrier Marvel dengan kipas turbo menghadap ke atas. GPT-5.2 menafsirkan sebagian besar prompt dengan benar, tetapi seperti AI lain, ia kesulitan menggambar kipas yang benar-benar vertikal. Poin dikurangi.

    Tes Gambar 2: Robot di Kota
    Poin tersedia: 5 | Poin diberikan: 5
    Tes ini meminta gambar robot raksasa bergaya dieselpunk di kota. Gambar yang dihasilkan sangat keren dan mendapat poin penuh.

    Tes Gambar 3: A Yankee in King Arthur’s Court
    Poin tersedia: 5 | Poin diberikan: 5
    Prompt meminta anak ber seragam Yankees di tengah istana abad pertengahan. Hasilnya lebih bergaya lukisan, tetapi konsisten dan berhasil.

    Tes Gambar 4: Back to the Future
    Poin tersedia: 5 | Poin diberikan: 4
    Kami kembali ke tes klasik Back to the Future. Gambar ini juga dibuat dengan gaya lukisan dan mereferensikan semua elemen yang tepat, tetapi proporsi figurnya agak tidak pas. Satu poin dikurangi.

    Hasil Tes Keseluruhan
    Tes dapat memberikan 100 poin untuk prompt berbasis teks dan 20 poin untuk prompt berbasis gambar. Berikut performa GPT-5.2:

  • Skor Teks: 92 dari 100
  • Skor Gambar: 17 dari 20

    Menariknya, ini satu poin lebih tinggi dari tes GPT-5.1 tingkat gratis saya untuk teks, dan satu poin lebih rendah untuk generasi gambar. Impresi keseluruhan saya adalah versi GPT-5.2 ini tidak jauh lebih baik dari 5.1. Kebutuhan untuk mengonfirmasi bahkan beberapa respons yang lebih pendek terasa aneh dan kurang nyaman. Saya juga menemukan bahwa ia kini tampak lebih memilih sisi keringkasan. Jawaban-jawaban itu membantu dan cukup akurat untuk tes saya, tetapi terkesan seperti GPT-5.2 hanya sekadar memenuhi permintaan, terutama dibandingkan model GPT sebelumnya.

    Saya juga memperhatikan bahwa ia cukup cepat sebagian besar waktu, namun sekali-sekali bisa menunda hingga beberapa menit sebelum memberikan respons. Saya menduga ini karena ini rilis baru, tetapi ini akan kami pantau untuk melihat apakah ini menjadi tren yang mengganggu.

    Bagaimana pendapat Anda?
    Apa tanggapan Anda atas performa GPT-5.2 dibandingkan GPT-5.1, terutama mengingat persyaratan langganan Plus $20/bulan? Apakah kecenderungan model terhadap keringkasan dan permintaan berulang akan "go signal" membantu atau menghambat pengalaman Anda? Seberapa penting kesalahan pengodean yang dicatat di sini dibandingkan performa kuat dalam analisis, penulisan, dan gambar? Berdasarkan hasil ini, apakah menurut Anda GPT-5.2 mewakili kemajuan nyata, atau terasa lebih seperti pembaruan tambahan? Beri tahu kami di komentar di bawah.

    Anda dapat mengikuti update proyek harian saya di media sosial. Pastikan untuk berlangganan newsletter mingguan saya, dan ikuti saya di Twitter/X di @DavidGewirtz, di Facebook di Facebook.com/DavidGewirtz, di Instagram di Instagram.com/DavidGewirtz, di Bluesky di @DavidGewirtz.com, dan di YouTube di YouTube.com/DavidGewirtzTV.

MEMBACA  Aplikasi Investasi Lokal ini Menarik Perhatian di Singapura

Tinggalkan komentar