OpenAI Akhirnya Meluncurkan GPT-5. Inilah Semua yang Perlu Anda Ketahui

Pos blog OpenAI mengklaim bahwa GPT-5 mengungguli model sebelumnya dalam beberapa tolok ukur pemrograman, termasuk SWE-Bench Verified (skor 74,9%), SWE-Lancer (GPT-5-thinking mencetak 55%), dan Aider Polyglot (skor 88%). Tes ini mengevaluasi kemampuan model dalam memperbaiki bug, menyelesaikan tugas pemrograman ala freelancer, dan bekerja dengan berbagai bahasa pemrograman.

Dalam briefing pers Rabu lalu, Yann Dubois, pimpinan pasca-pelatihan OpenAI, meminta GPT-5 untuk “buatkan aplikasi web interaktif yang indah untuk pasangan saya, penutur bahasa Inggris, yang ingin belajar bahasa Prancis.” Ia meminta fitur seperti progres harian, beragam aktivitas (flashcard, kuis), dan desain dengan tema yang menarik. Dalam sekitar satu menit, aplikasi yang dihasilkan AI muncul. Meski hanya demo terbatas, hasilnya adalah situs elegan yang memenuhi permintaan Dubois.

“Ini kolaborator coding yang hebat, dan juga unggul dalam tugas agen,” kata Michelle Pokrass, pimpinan pasca-pelatihan. “Model ini menjalankan rantai panjang dan panggilan alat dengan efektif [artinya lebih paham kapan dan bagaimana menggunakan fungsi seperti browser atau API eksternal], mengikuti instruksi detail, dan memberikan penjelasan sebelum bertindak.”

OpenAI juga menyatakan dalam pos blog bahwa GPT-5 adalah “model terbaik kami untuk pertanyaan terkait kesehatan.” Dalam tiga tolok ukur LLM kesehatan—HealthBench, HealthBench Hard, dan HealthBench Consensus—kartu sistem (dokumen yang mendeskripsikan kemampuan teknis produk dan temuan penelitian) menyebut GPT-5-thinking “jauh lebih unggul” dibanding model sebelumnya. Versi thinking GPT-5 mencetak 25,5% di HealthBench Hard, naik dari 31,6% GPT-4o3. Skor ini divalidasi oleh setidaknya dua dokter.

Pokrass menyebut model ini kurang berhalusinasi—masalah umum AI saat memberikan informasi palsu. Alex Beutel, pimpinan riset keamanan OpenAI, menambahkan bahwa mereka “secara signifikan mengurangi tingkat penipuan dalam GPT-5.”

“Kami mengurangi kecenderungan GPT-5-thinking untuk menipu, curang, atau meretas masalah, meski mitigasi kami belum sempurna dan perlu riset lebih lanjut,” tulis kartu sistem. “Kami melatih model agar gagal dengan elegan saat menghadapi tugas yang tak bisa diselesaikan.”

MEMBACA  Tahanan Palestina yang Akan Dibebaskan Serang Penjaga Wanita

Tanpa akses penjelajahan web, tingkat halusinasi GPT-5 (didefinisikan sebagai “persentase klaim fakta yang mengandung kesalahan minor atau mayor”) 26% lebih rendah dibanding GPT-4o. GPT-5-thinking memiliki penurunan 65% dibanding o3.

Untuk perintah yang berisiko ganda (berpotensi berbahaya atau tidak), Beutel menyebut GPT-5 menggunakan “safe completions”, memastikan jawaban sehelpful mungkin tapi tetap aman. OpenAI melakukan 5.000 jam red teaming dan uji coba dengan organisasi eksternal untuk memastikan sistem robust.

OpenAI mengklaim ChatGPT kini memiliki 700 juta pengguna aktif mingguan, 5 juta pengguna bisnis berbayar, dan 4 juta developer yang menggunakan API.

“Vibe model ini sangat bagus, dan orang-orang akan merasakannya,” kata Nick Turley, kepala ChatGPT. “Terutama orang biasa yang tidak terlalu memikirkan model AI.”