Sudah lebih dari seminggu sejak DeepSeek mengguncang dunia kecerdasan buatan. Pengenalan model open-weight-nya—yang katanya dilatih dengan sebagian kecil chip komputasi khusus yang menggerakkan pemimpin industri—menimbulkan gelombang kejut di dalam OpenAI. Bukan hanya karyawan yang mengklaim melihat petunjuk bahwa DeepSeek telah “secara tidak pantas mereduksi” model-model OpenAI untuk menciptakan miliknya sendiri, tetapi kesuksesan startup ini membuat Wall Street bertanya-tanya apakah perusahaan seperti OpenAI terlalu mengeluarkan biaya berlebihan untuk komputasi.
“Dalam tulisannya, Marc Andreessen, salah satu penemu paling berpengaruh dan provokatif di Silicon Valley, menulis, “DeepSeek R1 adalah momen Sputnik kecerdasan buatan,” di X.
Sebagai respons, OpenAI bersiap untuk meluncurkan model baru hari ini, lebih awal dari jadwal semula. Model tersebut, o3-mini, akan debut dalam API dan obrolan. Sumber mengatakan bahwa model ini memiliki tingkat pemeriksaan o1 dengan kecepatan level 4o. Dengan kata lain, itu cepat, murah, pintar, dan dirancang untuk mengalahkan DeepSeek.
Momen ini telah membangkitkan semangat staf OpenAI. Di dalam perusahaan, ada perasaan bahwa—terutama saat DeepSeek mendominasi percakapan—OpenAI harus menjadi lebih efisien atau berisiko tertinggal dari pesaing terbarunya.
Sebagian dari masalah berasal dari asal-usul OpenAI sebagai organisasi penelitian nirlaba sebelum menjadi kekuatan yang mencari keuntungan. Pergolakan kekuasaan yang berlangsung antara kelompok penelitian dan produk, karyawan mengklaim, telah mengakibatkan perpecahan antara tim yang bekerja pada pemeriksaan lanjutan dan yang bekerja pada obrolan. (Juru bicara OpenAI Niko Felix mengatakan ini “salah” dan mencatat bahwa pemimpin dari tim-tim ini, chief product officer Kevin Weil dan chief research officer Mark Chen, “bertemu setiap minggu dan bekerja sama untuk menyelaraskan prioritas produk dan penelitian.”)
Beberapa orang di dalam OpenAI ingin perusahaan membangun produk obrolan yang bersatu, satu model yang dapat mengatakan apakah sebuah pertanyaan memerlukan pemeriksaan lanjutan. Namun, hal itu belum terjadi. Sebaliknya, menu drop-down dalam ChatGPT meminta pengguna untuk memutuskan apakah mereka ingin menggunakan GPT-4o (“bagus untuk sebagian besar pertanyaan”) atau o1 (“menggunakan pemeriksaan lanjutan”).
Beberapa staf mengklaim bahwa sementara obrolan menghasilkan sebagian besar pendapatan OpenAI, o1 mendapatkan lebih perhatian—dan sumber daya komputasi—dari kepemimpinan. “Pimpinan tidak peduli dengan obrolan,” kata seorang mantan karyawan yang bekerja di (Anda bisa menebaknya) obrolan. “Semua orang ingin bekerja pada o1 karena itu menarik, tetapi basis kode tidak dibangun untuk eksperimen, jadi tidak ada momentum.” Mantan karyawan tersebut meminta untuk tetap anonim, dengan mengutip perjanjian kerahasiaan.
OpenAI telah menghabiskan bertahun-tahun bereksperimen dengan pembelajaran penguatan untuk menyempurnakan model yang akhirnya menjadi sistem pemeriksaan lanjutan yang disebut o1. (Pembelajaran penguatan adalah proses yang melatih model kecerdasan buatan dengan sistem hukuman dan hadiah.) DeepSeek membangun dari pekerjaan pembelajaran penguatan yang OpenAI telah pionirkan untuk menciptakan sistem pemeriksaan lanjutan mereka, yang disebut R1. “Mereka mendapat manfaat dari mengetahui bahwa pembelajaran penguatan, yang diterapkan pada model bahasa, berhasil,” kata seorang peneliti OpenAI yang tidak diizinkan untuk berbicara secara publik tentang perusahaan.
“Pembelajaran penguatan [DeepSeek] yang dilakukan mirip dengan yang kami lakukan di OpenAI,” kata seorang peneliti OpenAI lainnya, “tapi mereka melakukannya dengan data yang lebih baik dan tumpukan yang lebih bersih.”
Karyawan OpenAI mengatakan penelitian yang masuk ke o1 dilakukan dalam basis kode, yang disebut tumpukan “berry”, yang dibangun untuk kecepatan. “Ada keseimbangan—ketatnya eksperimen untuk throughput,” kata seorang mantan karyawan yang memiliki pengetahuan langsung tentang situasi tersebut.
Keseimbangan itu masuk akal untuk o1, yang pada dasarnya adalah eksperimen besar, terlepas dari keterbatasan basis kode. Namun, hal itu tidak begitu masuk akal untuk obrolan, produk yang digunakan oleh jutaan pengguna dan dibangun di atas tumpukan yang berbeda, lebih andal. Ketika o1 diluncurkan dan menjadi produk, retak mulai muncul dalam proses internal OpenAI. “Seperti, ‘mengapa kita melakukan ini di basis kode eksperimental, seharusnya kita lakukan ini di basis kode penelitian produk utama?'” jelas karyawan tersebut. “Ada perlawanan besar terhadap itu secara internal.”