OpenAI, yang mendapat tekanan kompetisi yang makin besar dari Google dan Anthropic, baru saja meluncurkan model AI baru, GPT-5.2. Mereka bilang model ini mengalahkan semua model yang ada dengan selisih yang besar di banyak tugas.
Model baru ini dirilis kurang dari sebulan setelah pendahulunya, GPT-5.1. Berdasarkan data dari OpenAI, model ini performanya sangat bagus dalam tes tugas-tugas profesional yang rumit di berbagai bidang “pekerjaan ilmu”—dari hukum, akuntansi, sampai keuangan—serta dalam evaluasi yang melibatkan pemrograman dan penalaran matematika.
Fidji Simo, mantan CEO InstaCart yang sekarang jadi CEO aplikasi di OpenAI, bilang ke wartawan bahwa model ini seharusnya tidak dilihat sebagai jawaban langsung terhadap model AI Gemini 3 Pro milik Google yang dirilis bulan lalu. Rilisnya Google itu membuat CEO OpenAI Sam Altman mengumumkan “code red,” menunda beberapa proyek agar lebih banyak staf dan sumber daya komputasi fokus meningkatkan produk utamanya, ChatGPT.
“Saya akan bilang bahwa [Code Red] itu membantu dengan rilis model ini, tapi itu bukan alasan khusus kenapa dia keluar minggu ini, ini sudah dikerjakan sejak lama,” katanya.
Dia bilang perusahaan telah membangun GPT-5.2 “selama berbulan-bulan.” “Kami tidak bisa membuat model ini hanya dalam seminggu. Ini hasil dari banyak kerja keras,” ujarnya. Model ini dikenal secara internal dengan nama kode “Garlic”, menurut sebuah artikel di The Information. Sehari sebelum rilis modelnya, Altman memberi kode dengan memposting klip video dia memasak pakai banyak bawang putih di media sosial.
Eksekutif OpenAI mengatakan model ini sudah ada di tangan “pelanggan Alpha” yang membantu menguji performanya “selama beberapa minggu”—periode waktu yang berarti model ini sudah selesai sebelum pernyataan “code red” Altman.
Pengetes ini termasuk startup AI hukum Harvey, aplikasi catatan Notion, dan perusahaan software manajemen file Box, serta Shopify dan Zoom.
OpenAI menyebut pelanggan-pelanggan ini menemukan GPT-5.2 menunjukkan kemampuan “terdepan” dalam menggunakan perangkat lunak lain untuk menyelesiakan tugas, serta sangat baik dalam menulis dan memperbaiki kode.
Pemrograman telah menjadi salah satu kasus penggunaan AI paling kompetitif di dalam perusahaan. Meskipun OpenAI dulunya unggul di bidang ini, model Claude dari Anthropic terbukti sangat populer di kalangan perusahaan, melebihi pangsa pasar OpenAI menurut beberapa angka. Tidak diragukan lagi OpenAI berharap bisa meyakinkan pelanggan untuk kembali ke modelnya untuk pemrograman dengan GPT-5.2.
Simo bilang “Code Red” membantu OpenAI fokus meningkatkan ChatGPT. “Code Red itu sinyal ke perusahaan bahwa kami ingin mengumpulkan sumber daya di satu area tertentu, dan itu cara untuk menetapkan prioritas dan hal-hal yang bisa dikurangi prioritasnya,” katanya. “Jadi kami punya peningkatan sumber daya yang fokus ke ChatGPT secara umum.”
Perusahaan juga bilang model barunya lebih baik dari model sebelumnya dalam memberikan “jawaban yang aman”—yang mereka artikan sebagai memberikan jawaban yang membantu tanpa mengatakan hal-hal yang bisa memperburuk krisis kesehatan mental.
“Di sisi keamanan, seperti yang kamu lihat di hasil tes, kami meningkat di hampir setiap dimensi keamanan, apakah itu bahaya diri, berbagai jenis kesehatan mental, atau ketergantungan emosional,” kata Simo. “Kami sangat bangga dengan pekerjaan kami di sini. Ini prioritas utama kami, dan kami hanya rilis model ketika kami yakin protokol keamanan sudah diikuti, dan kami bangga dengan kerja kami.”
Rilis model baru ini terjadi di hari yang sama ketika gugatan hukum baru diajukan ke perusahaan yang menuduh interaksi ChatGPT dengan pengguna yang punya masalah psikologis berkontribusi pada pembunuhan-bunuh diri di Connecticut. Perusahaan juga menghadapi beberapa gugatan lain yang menuduh ChatGPT berkontribusi pada bunuh diri orang. Perusahaan menyebut kasus di Connecticut itu “sangat memilukan” dan mengatakan mereka terus meningkatkan “pelatihan ChatGPT untuk mengenali dan merespons tanda-tanda tekanan mental atau emosional, meredakan percakapan dan mengarahkan orang ke dukungan di dunia nyata.”
GPT-5.2 menunjukkan lompatan besar dalam performa di beberapa tes benchmark yang penting bagi pelanggan perusahaan. Dia memenuhi atau melampaui performa ahli manusia dalam banyak tugas profesional yang sulit, diukur dengan benchmark GDPval OpenAI, sebanyak 70,9% dari waktu. Ini dibandingkan dengan hanya 38,8% untuk GPT-5 (model yang dirilis OpenAI Agustus lalu); 59,6% untuk Claude Opus 4.5 milik Anthropic; dan 53,3% untuk Gemini 3 Pro milik Google.
Di benchmark pengembangan perangkat lunak, SWE-Bench Pro, GPT-5.2 mendapat skor 55,6%, hampir 5 poin persen lebih baik dari pendahulunya, GPT-5.1, dan lebih dari 12% lebih baik dari Gemini 3 Pro.
Aidan Clark dari OpenAI, wakil presiden riset (pelatihan), tidak mau menjawab pertanyaan tentang metode pelatihan apa yang dipakai untuk meningkatkan performa GPT-5.2, meskipun dia bilang perusahaannya membuat perbaikan di semua bidang, termasuk dalam pra-pelatihan, langkah awal dalam membuat model AI.
Waktu Google rilis model Gemini 3 Pro bulan lalu, penelitinya juga bilang perusahaan membuat peningkatan dalam pra-pelatihan dan pasca-pelatihan. Ini mengejutkan beberapa orang di bidang ini yang percaya perusahaan AI sudah hampir habis cara untuk mendapatkan peningkatan besar dari tahap pra-pelatihan pembuatan model, dan diduga OpenAI mungkin kaget dengan kemajuan Google di area ini.
Halo semuanya! Nama saya Rizky. Salam kenal ya.
Saya berasal dari kota Jakarta di Indonesia. Saat ini, saya tinggal di Bandung untuk kuliah. Saya belajar ilmu komputer di universitas sini.
Hobi saya adalah bermain game dan juga membaca buku komik. Kadang-kadang saya suka nongkrong sama temen-teman di kafe. Saya juga suka sekali menonton film, terutama film action.
Kalau ada yang mau berteman atau ngobrol, silakan hubungi saya ya. Terima kasih!