Hari terakhir dari “12 Hari Shipmas” OpenAI telah tiba dengan pengungkapan o3, model “pemikiran” rantai pikir baru yang diklaim oleh perusahaan sebagai yang paling canggih. Model ini belum tersedia untuk penggunaan umum, tetapi peneliti keamanan dapat mendaftar untuk pratinjau mulai hari ini. Semua orang berharap bahwa model pemikiran akan membantu mengatasi masalah chatbot yang sering memberikan jawaban yang salah. Chatbot pada dasarnya tidak “berpikir” seperti manusia dan diperlukan teknik berbeda untuk mencoba menciptakan simulasi terbaik dari proses berpikir manusia. Saat ditanya pertanyaan, model pemikiran berhenti sejenak dan mempertimbangkan petunjuk terkait yang dapat membantu menghasilkan jawaban yang akurat.
Misalnya, jika Anda bertanya pada model o3, “apakah habanero bisa ditanam di Pacific Northwest,” model tersebut mungkin akan menetapkan serangkaian pertanyaan yang akan diteliti untuk sampai pada kesimpulan, seperti “di mana biasanya habanero tumbuh,” “apa kondisi ideal untuk menanam habanero,” dan “iklim seperti apa yang dimiliki Pacific Northwest.” Ada yang tahu bahwa terkadang Anda harus meminta chatbot dengan tindak lanjut tambahan sampai akhirnya mendapatkan hasil yang benar. Model pemikiran seharusnya melakukan pekerjaan tambahan ini untuk Anda. o3 adalah penerus o1, model pemikiran rantai pertama dari OpenAI. Perwakilan mengatakan mereka memutuskan untuk melewati konvensi penamaan “o2” “dengan rasa hormat” untuk perusahaan telekomunikasi Inggris, tetapi tentu saja tidak merugikan bahwa produk terdengar lebih canggih. Perusahaan mengatakan model baru ini dilengkapi dengan kemampuan untuk menyesuaikan waktu berpikirnya. Pengguna dapat memilih waktu berpikir rendah, sedang, atau tinggi; semakin besar komputernya, semakin baik o3 seharusnya berkinerja. OpenAI mengatakan akan menghabiskan waktu “red-teaming” model baru ini dengan peneliti untuk mencegahnya menghasilkan tanggapan yang berpotensi merugikan (karena sekali lagi, ini bukan manusia dan tidak tahu benar versus salah).
Pemikiran adalah kata kunci hari ini dalam bidang AI generatif, karena para pelaku industri percaya bahwa ini adalah kunci berikutnya yang diperlukan untuk meningkatkan kinerja model bahasa besar. Komputasi lebih lanjut pada akhirnya tidak menawarkan peningkatan kinerja yang setara, sehingga diperlukan teknik baru. Google DeepMind baru-baru ini mengungkapkan model pemikiran mereka sendiri yang disebut Gemini Deep Research, yang dapat menghabiskan 5-10 menit untuk menghasilkan laporan yang menganalisis banyak sumber di seluruh web untuk sampai pada temuannya. OpenAI yakin dengan o3, dan menawarkan benchmark yang mengesankan – mereka mengatakan bahwa dalam pengujian Codeforcing, yang mengukur kemampuan pemrograman, o3 mendapatkan skor 2727. Untuk konteks, skor 2400 akan menempatkan seorang insinyur dalam persentil 99 dari pemrogram. Ini mendapatkan skor 96,7% pada Ujian Matematika Undangan Amerika 2024, hanya salah satu pertanyaan. Kita harus melihat bagaimana model ini bertahan dalam pengujian dunia nyata; Sora OpenAI yang baru-baru ini dirilis masih memerlukan banyak pekerjaan. Tetapi optimis yakin bahwa masalah akurasi sedang dipecahkan. Namun, bersikaplah dengan hati-hati menggunakan model AI untuk pekerjaan penting di mana akurasi diperlukan.
Perusahaan model AI seperti OpenAI dan Perplexity sedang berlomba menjadi Google berikutnya, mengumpulkan pengetahuan dunia dan membantu pengguna memahaminya semua. Mereka bahkan memiliki produk pencarian sekarang yang dimaksudkan untuk lebih langsung mereplikasi Google dengan akses ke hasil web real-time. Semua pemain ini sepertinya saling melompati satu sama lain setiap hari, Namun, perasaannya agak mengingatkan pada akhir tahun 90-an ketika ada banyak mesin pencari untuk dipilih – Google, Yahoo, dan AltaVista, Ask Jeeves, hanya untuk menyebutkan beberapa, semuanya mengambil data internet dan menyajikannya hanya dengan UX yang berbeda. Kebanyakan dari mereka menghilang setelah satu datang yang jauh lebih baik dari yang lain – Google. OpenAI jelas memiliki keunggulan kuat saat ini dengan ratusan juta pengguna aktif bulanan dan kemitraan dengan Apple, tetapi Google baru-baru ini menerima banyak pujian untuk kemajuan dalam model Gemini-nya. The Verge melaporkan bahwa perusahaan akan segera mengintegrasikan Gemini lebih dalam ke antarmuka pencariannya.