OpenAI membuat terobosan besar terakhir dalam kecerdasan buatan dengan meningkatkan ukuran modelnya menjadi proporsi yang memusingkan, ketika memperkenalkan GPT-4 tahun lalu. Perusahaan hari ini mengumumkan kemajuan baru yang menandakan pergeseran dalam pendekatan – sebuah model yang dapat “berpikir” secara logis melalui banyak masalah sulit dan jauh lebih pintar dari kecerdasan buatan yang ada tanpa perlu memperbesar skala secara signifikan.
Model baru, yang diberi nama OpenAI-o1, dapat memecahkan masalah yang sulit bagi model kecerdasan buatan yang ada, termasuk model terkuat OpenAI yang ada, GPT-4o. Alih-alih menyajikan jawaban dalam satu langkah, seperti yang biasa dilakukan oleh model bahasa besar, ia berpikir melalui masalahnya, secara efektif berpikir keras seperti yang mungkin dilakukan oleh seseorang, sebelum sampai pada hasil yang tepat.
“Kami menganggap ini sebagai paradigma baru dalam model-model ini,” kata Mira Murati, chief technology officer OpenAI, kepada WIRED. “Ini jauh lebih baik dalam menangani tugas-tugas penalaran yang sangat kompleks.”
Model baru tersebut memiliki kode nama Strawberry di dalam OpenAI, dan bukan penerus dari GPT-4o melainkan pelengkapnya, kata perusahaan.
Murati mengatakan bahwa OpenAI saat ini sedang membangun model master berikutnya, GPT-5, yang akan jauh lebih besar dari pendahulunya. Tetapi meskipun perusahaan masih yakin bahwa skala akan membantu mengeluarkan kemampuan baru dari kecerdasan buatan, GPT-5 kemungkinan juga akan menyertakan teknologi penalaran yang diperkenalkan hari ini. “Ada dua paradigma,” kata Murati. “Paradigma penskalaan dan paradigma baru ini. Kami berharap bahwa kami akan menyatukannya.”
LLM biasanya menciptakan jawaban mereka dari jaringan saraf besar yang diberi data latihan dalam jumlah besar. Mereka dapat menunjukkan kemampuan linguistik dan logika yang luar biasa, tetapi biasanya mengalami kesulitan dengan masalah yang cukup sederhana seperti pertanyaan matematika yang melibatkan penalaran.
Murati mengatakan OpenAI-o1 menggunakan pembelajaran penguatan, yang melibatkan memberikan umpan balik positif kepada model ketika ia mendapatkan jawaban yang benar dan umpan balik negatif ketika tidak, untuk meningkatkan proses penalarannya. “Model tersebut mempertajam pemikirannya dan menyetel strategi yang digunakan untuk mendapatkan jawaban,” katanya. Pembelajaran penguatan telah memungkinkan komputer untuk bermain game dengan keahlian di atas manusia dan melakukan tugas-tugas yang berguna seperti merancang chip komputer. Teknik ini juga merupakan bahan kunci untuk mengubah LLM menjadi chatbot yang berguna dan berperilaku baik.
Mark Chen, wakil presiden riset di OpenAI, memperlihatkan model baru tersebut kepada WIRED, menggunakannya untuk memecahkan beberapa masalah yang model sebelumnya, GPT-4o, tidak bisa. Ini termasuk pertanyaan kimia tingkat lanjut dan teka-teki matematika yang memusingkan berikut: “Seorang putri seumur dengan usia pangeran akan menjadi ketika putri itu dua kali lebih tua dari usia pangeran ketika usia putri itu setengah dari jumlah usia mereka saat ini. Berapa usia pangeran dan putri?” (Jawaban yang benar adalah pangeran berusia 30 tahun, dan putri berusia 40 tahun).
“Model [baru] belajar untuk berpikir sendiri, daripada mencoba meniru cara manusia berpikir,” seperti yang dilakukan oleh LLM konvensional, kata Chen.
OpenAI mengatakan model baru mereka jauh lebih baik dalam sejumlah set masalah, termasuk yang fokus pada pemrograman, matematika, fisika, biologi, dan kimia. Pada American Invitational Mathematics Examination (AIME), tes untuk siswa matematika, GPT-4o menyelesaikan rata-rata 12 persen dari masalah sementara o1 mendapatkan 83 persen benar, menurut perusahaan.