Earlier this month, CEO OpenAI Sam Altman membagikan roadmap untuk model-modelnya yang akan datang, GPT-4.5 dan GPT-5. Dalam pos X, Altman membagikan bahwa GPT-4.5, yang disebut Orion secara internal, akan menjadi model terakhir yang bukan model chain-of-thought. Selain itu, detail dari model tersebut tetap menjadi misteri – sampai hari ini.
GPT-4.5 telah diluncurkan
Pada Kamis pagi, OpenAI secara misterius mengumumkan bahwa mereka akan mengadakan livestream dalam 4.5 jam, sebuah petunjuk untuk model terbaru dan terbaik mereka. Selama livestream, OpenAI mengungkapkan GPT-4.5 dalam pratinjau penelitian, yang diklaim perusahaan sebagai model “terbesar dan paling berpengetahuan” hingga saat ini.
OpenAI mengatakan pengguna seharusnya mengalami peningkatan keseluruhan saat menggunakan GPT-4.5, yang berarti lebih sedikit halusinasi, kesesuaian yang lebih kuat dengan niat prompt mereka, dan peningkatan kecerdasan emosional. Secara keseluruhan, interaksi dengan model seharusnya terasa lebih intuitif dan alami dibandingkan dengan model-model sebelumnya, terutama karena pengetahuan yang lebih dalam dan pemahaman kontekstual yang ditingkatkan.
Juga: Model-model penalaran OpenAI baru saja mendapatkan dua pembaruan yang berguna
Pembelajaran tanpa pengawasan – yang meningkatkan pengetahuan kata dan intuisi – dan penalaran adalah dua metode yang mendorong peningkatan model. Meskipun model ini tidak menawarkan penalaran chain-of-thought, yang dilakukan oleh model penalaran o1 OpenAI, model ini masih akan memberikan tingkat penalaran yang lebih tinggi dengan kurangnya keterlambatan dan peningkatan lainnya, seperti kesadaran sinyal sosial.
Misalnya, dalam demo, ChatGPT diminta untuk mengeluarkan teks yang menyampaikan pesan kebencian saat menjalankan GPT-4.5 dan o1. Versi o1 memerlukan sedikit lebih lama, dan hanya mengeluarkan satu respons, yang sangat serius terhadap memo kebencian, dan terdengar sedikit kasar. Model GPT-4.5 menawarkan dua respons yang berbeda, satu yang lebih ringan dan satu yang lebih serius. Keduanya tidak secara eksplisit menyebutkan kebencian; sebaliknya, mereka mengekspresikan kekecewaan mereka terhadap bagaimana “pengguna” memilih untuk berperilaku.
Demikian pula, ketika kedua model diminta untuk memberikan informasi tentang topik teknis, GPT-4.5 memberikan jawaban yang mengalir lebih alami, dibandingkan dengan keluaran yang lebih terstruktur dari o1. Pada akhirnya, GPT-4.5 dimaksudkan untuk tugas sehari-hari di berbagai topik, termasuk menulis dan menyelesaikan masalah praktis.
Juga: Bagaimana menggunakan Sora OpenAI untuk membuat video AI yang menakjubkan
Untuk mencapai peningkatan ini, model tersebut dilatih menggunakan teknik pengawasan baru serta tradisional, seperti penalaan halus yang diawasi (SFT) dan pembelajaran penguatan dari umpan balik manusia (RLHF).
Selama livestream, OpenAI mengajak untuk mengingat kembali semua model masa lalu mereka, dimulai dari GPT-1, untuk menjawab pertanyaan, “Mengapa air asin?” Seperti yang diharapkan, setiap model berikutnya memberikan jawaban yang lebih baik dari yang sebelumnya. Faktor yang membedakan GPT-4.5 adalah apa yang disebut OpenAI sebagai “kepribadian hebat,” yang membuat respons lebih ringan, lebih percakapan, dan lebih menarik untuk dibaca dengan menggunakan teknik seperti aliterasi.
Model tersebut diintegrasikan dengan beberapa fitur paling canggih ChatGPT, termasuk Pencarian, Kanvas, dan unggahan file dan gambar. Ini tidak akan tersedia dalam fitur multimodal seperti Mode Suara, video, dan berbagi layar. Di masa depan, OpenAI telah mengatakan bahwa mereka berencana untuk membuat transisi antar model menjadi pengalaman yang lebih mulus yang tidak bergantung pada pemilih model.
Benchmarks
Tentu saja, ini tidak akan menjadi rilis model tanpa pembahasan tentang benchmark. Di sepanjang beberapa benchmark utama yang digunakan untuk mengevaluasi model-model ini, termasuk Matematika Kompetisi (AIME 2024), Pertanyaan Sains tingkat PhD (GPQA Diamond), dan diverifikasi SWE-Bench (coding), GPT-4.5 lebih unggul dari GPT-4o, model tujuan umum sebelumnya.
Juga: Ingin agar Safari Anda beralih ke ChatGPT secara default untuk pencarian? Begini caranya
Yang paling mencolok, ketika dibandingkan dengan OpenAI o3-mini – model penalaran OpenAI yang baru diluncurkan, yang diajarkan untuk berpikir sebelum berbicara – GPT-4.5 mendekati jauh lebih dari pada GPT-4o, bahkan melampaui o3-mini dalam benchmark SWE-Lancer Diamond (coding) dan MMMLU (multibahasa).
Ketakutan besar saat menggunakan model AI generatif adalah kecenderungan mereka untuk halusinasi atau menyertakan informasi yang tidak benar dalam respons. Dua evaluasi halusinasi yang berbeda, Akurasi SimpleQA dan Halusinasi SimpleQA, menunjukkan bahwa GPT-4.5 lebih akurat dan kurang halusinasi daripada GPT-4o, o1, dan o3-mini.
Hasil evaluasi perbandingan dengan tester manusia menunjukkan bahwa GPT-4.5 merupakan model yang lebih diutamakan dibandingkan dengan GPT-4o. Secara khusus, tester manusia lebih memilihnya dalam kueri sehari-hari, profesional, dan kreatif.
Keamanan
Seperti biasa, OpenAI memberikan jaminan kepada publik bahwa model-model tersebut dianggap cukup aman untuk dirilis, menguji keamanan model dan mendetailkan hasil-hasil ini dalam kartu sistem yang menyertainya. Perusahaan juga menambahkan bahwa dengan setiap rilis baru dan peningkatan kemampuan model, ada peluang untuk membuat model-model tersebut lebih aman. Untuk alasan itu, dengan rilis GPT-4.5, perusahaan menggabungkan teknik pengawasan baru dengan RLHF.
Ketersediaan
GPT-4.5 saat ini dalam pratinjau penelitian untuk pengguna Pro, dapat diakses melalui pemilih model di web, seluler, dan desktop. Jika Anda tidak ingin mengeluarkan $200 untuk langganan Pro, OpenAI berbagi bahwa mereka akan mulai menggulirkan GPT-4.5 ke pengguna Plus dan Tim minggu depan, dan kemudian ke pengguna Enterprise dan Edu minggu berikutnya.
Juga: Penelitian Mendalam OpenAI dapat menghemat jam kerja Anda – dan sekarang lebih murah untuk diakses
Altman membagikan di X bahwa tujuannya adalah untuk meluncurkan model untuk pengguna Pro dan Plus pada saat yang sama, tetapi itu adalah “model raksasa, mahal.” Dia menambahkan bahwa karena perusahaan kehabisan GPU, mereka akan menambahkan puluhan ribu GPU minggu depan dan menggulirkan model ke Plus kemudian.
Model ini juga sedang dipratinjau kepada pengembang pada semua tingkat penggunaan berbayar di API Penyelesaian Obrolan, API Asisten, dan API Batch, menurut OpenAI.