Apakah Kekuatan Baru GPT-5.2 Cukup untuk Mengungguli Gemini 3? Coba dan Buktikan

SOPA Images/Contributor/LightRocket via Getty Images

Ikuti ZDNET: Tambahkan kami sebagai sumber pilihan di Google.

*

Poin Penting ZDNET**

  • OpenAI merilis model terbarunya, GPT-5.2, pada Kamis.
  • Mereka mempercepat peluncuran model ini untuk tetap kompetitif dengan Google dan Anthropic.
  • GPT-5.2 dirancang untuk tugas profesional dan diklaim setara dengan ahli.

    *

    Setelah seminggu mengumbar teaser, model terbaru OpenAI, GPT-5.2, telah resmi diluncurkan — dan tampaknya kemampuannya mampu menyaingi keahlian profesional Anda.

    Perusahaan menyebut GPT-5.2 sebagai "seri model paling mumpuni sejauh ini untuk pekerjaan pengetahuan profesional" dalam pengumuman pada Kamis. Mengutip studi internal terbarunya tentang penggunaan AI di tempat kerja, perusahaan mencatat bahwa AI menghemat hingga satu jam per hari bagi pekerja rata-rata; GPT-5.2 tampaknya dirancang untuk meningkatkan hal itu secara signifikan.

    Baca juga:* ChatGPT menghemat hampir satu jam per hari bagi pekerja rata-rata, menurut OpenAI – begini caranya

    "Kami merancang GPT‑5.2 untuk membuka lebih banyak lagi nilai ekonomi bagi pengguna; model ini lebih baik dalam membuat spreadsheet, menyusun presentasi, menulis kode, mempersepsi gambar, memahami konteks panjang, menggunakan alat, dan menangani proyek kompleks multi-tahap," tulis perusahaan.

    Dilaporkan oleh The Information, perusahaan mempercepat pengembangan model ini menyusul rilis kompetitif Gemini 3 dari Google dan Opus 4.5 dari Anthropic. Berikut kemampuan dan cara mencobanya.

    (Keterangan: Ziff Davis, perusahaan induk ZDNET, mengajukan gugatan pada April 2025 terhadap OpenAI, dengan tuduhan melanggar hak cipta Ziff Davis dalam melatih dan mengoperasikan sistem AI-nya.)*

    Dibangun untuk Tugas Pekerjaan

    OpenAI menyatakan GPT-5.2 "mengungguli profesional industri dalam tugas-tugas pekerjaan pengetahuan yang terdefinisi dengan baik, mencakup 44 jenis pekerjaan." Laporan tersebut secara khusus menyoroti GDPval, patokan internal yang dirilis perusahaan pada September lalu yang berusaha mengukur nilai ekonomi yang dihasilkan model AI. Hal ini dilakukan dengan mengevaluasi cara model mendekati 1.320 tugas yang umumnya terkait dengan 44 pekerjaan di sembilan industri yang menyumbang lebih dari 5% terhadap PDB Amerika Serikat.

    GPT-5.2 Thinking mencetak skor 70,9% pada GDPval, dibandingkan dengan skor 38,8% milik GPT-5.1 Thinking — artinya ia unggul dalam tugas-tugas pekerjaan pengetahuan umum seperti membuat spreadsheet dan presentasi.

    "GPT‑5.2 Thinking menghasilkan keluaran untuk tugas GDPval dengan kecepatan >11 kali lipat dan biaya <1% dibandingkan tenaga ahli profesional, menunjukkan bahwa ketika dipasangkan dengan pengawasan manusia, GPT‑5.2 dapat membantu pekerjaan profesional," tulis OpenAI, menambahkan bahwa seorang juri ahli membandingkan keluaran model tersebut dengan pekerjaan "yang dilakukan oleh perusahaan profesional dengan staf" (meskipun ada beberapa kesalahan minor).

    Baca juga: 3 cara agen AI akan mengubah pekerjaan Anda tak bisa dikenali dalam beberapa tahun ke depan

    Selain GDPval, OpenAI merilis temuan tentang bagaimana beberapa modelnya sendiri, serta Claude Opus 4.1 milik Anthropic, Gemini 2.5 Pro milik Google, dan Grok 4 milik xAI, berkinerja pada patokan tersebut. Claude Opus 4.1 menduduki peringkat pertama secara keseluruhan, menunjukkan keunggulan khusus dalam tugas-tugas estetika seperti pemformatan dokumen dan tata letak slide, sementara GPT-5 mencetak skor tinggi untuk akurasi — yang digambarkan OpenAI sebagai "menemukan pengetahuan spesifik domain."

    OpenAI juga menyoroti peningkatan kemampuan penalaran konteks panjang dan visi pada GPT-5.2. Yang pertama, kata mereka, akan membantu profesional mempertahankan akurasi saat menggunakan model untuk menganalisis laporan panjang, kontrak, dan dokumen lainnya, sementara yang kedua membuatnya lebih terampil dalam menafsirkan diagram, gambar dasbor, tangkapan layar, dan data visual lainnya secara akurat.

    "Dibandingkan model sebelumnya, GPT‑5.2 Thinking memiliki pemahaman yang lebih kuat tentang bagaimana elemen diposisikan dalam suatu gambar, yang membantu dalam tugas di mana tata letak relatif memainkan peran kunci dalam memecahkan masalah," tulis perusahaan. Mereka memberikan contoh bagaimana model dapat mengidentifikasi bounding boxes bahkan dalam gambar berkualitas rendah dan menunjukkan pemahaman yang lebih kuat tentang "penataan spasial" dibandingkan 5.1.

    Keunggulan dalam Pemrograman

    Model ini juga menunjukkan peningkatan yang lebih kecil dibandingkan GPT-5.1 Thinking di beberapa patokan standar industri, termasuk AIME 2025 yang mengukur matematika, dan SWE-Bench Pro yang mengukur rekayasa perangkat lunak dalam empat bahasa. Model ini mencetak skor state-of-the-art baru pada yang terakhir sebesar 55,6%.

    Baca juga: AI gratis terbaik untuk coding di 2025 – hanya 3 yang lolos sekarang

    Menurut OpenAI, itu berarti debugging kode produksi dan implementasi fitur yang lebih baik, serta penyebaran perbaikan dengan sedikit intervensi manual pengembang. Perusahaan juga memamerkan peningkatan kemampuan front-end GPT-5.2, terutama pada "pekerjaan UI yang kompleks atau tidak konvensional" dan elemen 3D.

    Halusinasi yang Berkurang

    OpenAI mencatat dalam pengumuman bahwa GPT-5.2 Thinking berhalusinasi 30% lebih sedikit daripada 5.1 Thinking, yang menurut mereka seharusnya mendorong pengguna perusahaan untuk kurang khawatir menemukan kesalahan saat menggunakan model untuk penelitian dan analisis.

    Beberapa risiko halusinasi adalah realitas penggunaan model AI apa pun, dan pengguna harus memeriksa ulang klaim apa pun yang dibuat model, tidak peduli seberapa besar peningkatan skor faktualitasnya dibandingkan pendahulunya.

    Keamanan

    Perusahaan menekankan dalam pengumuman bahwa mereka melatih GPT-5.2 lebih ketat dalam menangani percakapan sensitif, menemukan "lebih sedikit respons yang tidak diinginkan baik dalam GPT‑5.2 Instant maupun GPT‑5.2 Thinking dibandingkan dengan model GPT‑5.1 dan GPT‑5 Instant serta Thinking."

    Untuk model mereka secara keseluruhan, perusahaan mengatakan telah membuat "peningkatan bermakna dalam cara mereka menanggapi prompt yang menunjukkan tanda-tanda bunuh diri atau menyakiti diri sendiri, tekanan kesehatan mental, atau ketergantungan emosional pada model."

    Baca juga: Menggunakan AI untuk terapi? Jangan – itu buruk untuk kesehatan mental Anda, peringatan APA

    OpenAI menambahkan bahwa mereka masih dalam proses meluncurkan model prediksi usia, yang menurut perusahaan akan "secara otomatis menerapkan perlindungan konten untuk pengguna yang berusia di bawah 18 tahun, untuk membatasi akses ke konten sensitif."

    Pengumuman itu juga menyertakan tabel evaluasi kesehatan mental untuk keempat model yang disebutkan di atas, yang menunjukkan skor pada skala nol hingga satu untuk masing-masing, meskipun tidak merincikan metodologinya.

    Coba Mencobanya

    GPT-5.2 akan mulai diluncurkan ke pengguna ChatGPT berbayar pada Kamis, mengikuti penyebaran biasa keluarga model OpenAI dengan versi Instant, Thinking, dan Pro untuk tugas yang berbeda. Pengembang dapat mengakses ketiga versi sekarang di API.

    Selain itu, pengguna Pro, Bisnis, dan Enterprise dapat menggunakan fitur spreadsheet dan presentasi model dengan memilih mode Thinking atau Pro.

    Apakah GPT-5.2 Menggantikan Model Lain?

    OpenAI meyakinkan pengguna bahwa mereka "tidak memiliki rencana saat ini untuk menghapus GPT‑5.1, GPT‑5, atau GPT‑4.1 dari API dan akan mengomunikasikan rencana penghapusan apa pun dengan pemberitahuan yang cukup lama bagi pengembang." Mereka menambahkan bahwa model baru ini bekerja dengan baik apa adanya di Codex, tetapi akan merilis versi model yang dioptimalkan untuk lingkungan itu dalam beberapa minggu ke depan.

    Baca juga: Berhenti menggunakan ChatGPT untuk segalanya: Model AI yang saya gunakan untuk riset, coding, dan lainnya (dan yang saya hindari)

    Penyangkalan ini mungkin berarti bagi pengguna yang bereaksi negatif terhadap penghapusan sementara model sebelumnya, termasuk GPT-4, ketika OpenAI merilis GPT-5 musim panas lalu.

    Model Misterius ‘Garlic’

    Laporan lain dari The Information yang diterbitkan pekan lalu mengungkapkan bahwa OpenAI juga sedang mengembangkan model baru, dengan nama kode Garlic.

    Tidak jelas seberapa terpisah Garlic dan GPT-5.2 yang dinantikan itu, tetapi The Information menyebut GPT-5.2 (serta rilis mendatang lainnya, GPT-5.5) sebagai versi potensial dari Garlic. Sebelum rilis 5.2, Kepala Petugas Riset OpenAI Mark Chen memberi tahu rekan-rekannya bahwa Garlic berkinerja baik dalam evaluasi perusahaan dibandingkan dengan Gemini 3 dan Opus 4.5 dalam tugas yang melibatkan pemrograman dan penalaran, menurut laporan tersebut. Namun, baik Gemini 3 maupun Opus 4.5, yang keduanya menetapkan standar industri bulan lalu, tidak disebutkan dalam perbandingan patokan dalam laporan kinerja untuk GPT-5.2.

    Chen menambahkan bahwa saat mengembangkan Garlic, OpenAI menangani masalah pretraining, fase awal pelatihan di mana model mulai belajar dari kumpulan data besar. Perusahaan memfokuskan model pada koneksi yang lebih luas sebelum melatihnya untuk tugas yang lebih spesifik.

    Baca juga: Gemini vs. Copilot: Saya menguji alat AI pada 7 tugas sehari-hari, dan hasilnya sangat jauh

    Perubahan dalam pretraining ini memungkinkan OpenAI untuk memasukkan jumlah pengetahuan yang sama yang sebelumnya diperuntukkan bagi model yang lebih besar ke dalam model yang lebih kecil, menurut pernyataan Chen yang dikutip dalam laporan. Model yang lebih kecil dapat bermanfaat bagi pengembang karena biasanya lebih murah dan lebih mudah untuk disebarkan — sesuatu yang ditekankan oleh lab AI Prancis Mistral dengan rilisnya sendiri pekan lalu.

    Bagi perusahaan di baliknya, model yang lebih kecil lebih murah untuk dibangun dan disebarkan. Garlic tidak boleh disamakan dengan Shallotpeat, model yang diumumkan Altman kepada staf pada Oktober, menurut laporan sebelumnya juga dari The Information. Model itu juga bertujuan untuk memperbaiki bug dalam proses pretraining.

    Adapun kapan Garlic diharapkan hadir, Chen membuat detailnya samar-samar, hanya mengatakan "secepat mungkin" dalam laporan. Perkembangan yang dibuat saat menciptakan Garlic telah memungkinkan perusahaan untuk beralih ke pengembangan model berikutnya yang lebih besar dan lebih baik, kata Chen.

    Pertarungan Memperebutkan Pengguna

    Perlombaan sengit antara Google dan OpenAI ini dapat dikaitkan sebagian dengan keduanya yang memperebutkan sektor yang sama: konsumen.

    Sebagaimana dicatat CEO Anthropic, Dario Amodei, dalam percakapan dengan jurnalis Andrew Ross Sorkin selama The New York Times’ DealBook Summit pekan lalu, Anthropic tidak berada dalam perlombaan yang sama atau menghadapi kepanikan "kode merah" seperti pesaingnya, karena berfokus pada melayani perusahaan daripada konsumen. Perusahaan baru saja mengumumkan bahwa alat pemrograman agenik Claude Code-nya mencapai pendapatan run-rate $1 miliar, hanya enam bulan setelah tersedia untuk publik.

MEMBACA  Kiat dan Jawaban Edisi Olahraga NYT Connections 13 Juni: Cara Menyelesaikan Connections #262

Tinggalkan komentar