Bagaimana Perusahaan Startup AI China DeepSeek Membuat Model yang Menyaingi OpenAI

Hari ini, DeepSeek adalah salah satu perusahaan AI terkemuka di China yang tidak mengandalkan pendanaan dari raksasa teknologi seperti Baidu, Alibaba, atau ByteDance. Sebuah Kelompok Muda dari Para Jenius yang Bersemangat untuk Membuktikan Diri. Menurut Liang, ketika dia menyusun tim penelitian DeepSeek, dia tidak mencari insinyur berpengalaman untuk membangun produk yang berorientasi konsumen. Sebaliknya, dia fokus pada mahasiswa doktoral dari universitas-universitas terkemuka di China, termasuk Universitas Peking dan Universitas Tsinghua, yang sangat ingin membuktikan diri. Banyak di antaranya telah dipublikasikan di jurnal-jurnal terkemuka dan memenangkan penghargaan di konferensi akademis internasional, namun kurang pengalaman industri, menurut publikasi teknologi Cina QBitAI. “Posisi teknis inti kami sebagian besar diisi oleh orang-orang yang lulus tahun ini atau dalam satu atau dua tahun terakhir,” kata Liang kepada 36Kr pada tahun 2023. Strategi perekrutan ini membantu menciptakan budaya perusahaan kolaboratif di mana orang bebas menggunakan sumber daya komputasi yang cukup untuk mengejar proyek-proyek penelitian yang tidak lazim. Ini adalah cara yang sangat berbeda dari perusahaan internet mapan di China, di mana tim sering bersaing untuk sumber daya. (Sebagai contoh terbaru: ByteDance menuduh seorang mantan intern—pemenang penghargaan akademis bergengsi, tidak kurang—mengacaukan pekerjaan rekan-rekannya untuk menimbun lebih banyak sumber daya komputasi untuk timnya.) Liang mengatakan bahwa mahasiswa bisa lebih cocok untuk penelitian berinvestasi tinggi, berprofit rendah. “Kebanyakan orang, ketika mereka masih muda, dapat sepenuhnya mendedikasikan diri pada misi tanpa pertimbangan utilitarian,” jelasnya. Tawarannya kepada calon karyawan adalah bahwa DeepSeek dibuat untuk “mengatasi pertanyaan-pertanyaan tersulit di dunia.” Tidak heran bahwa para peneliti muda ini hampir sepenuhnya dididik di China menambah semangat mereka, kata para ahli. “Generasi muda ini juga mencerminkan rasa patriotisme, terutama saat mereka menavigasi pembatasan AS dan titik-titik tersedak dalam teknologi perangkat keras dan perangkat lunak kritis,” jelas Zhang. “Tekad mereka untuk mengatasi rintangan ini mencerminkan tidak hanya ambisi pribadi tetapi juga komitmen yang lebih luas untuk memajukan posisi China sebagai pemimpin inovasi global.” Inovasi Lahir dari Krisis. Pada Oktober 2022, pemerintah AS mulai menyusun kontrol ekspor yang sangat membatasi perusahaan-perusahaan AI China untuk mengakses chip-chip canggih seperti H100 Nvidia. Langkah ini menimbulkan masalah bagi DeepSeek. Perusahaan telah memulai dengan stok 10.000 chip H100, namun mereka membutuhkan lebih banyak untuk bersaing dengan perusahaan seperti OpenAI dan Meta. “Masalah yang kami hadapi bukanlah pendanaan, tetapi kontrol ekspor pada chip-chip canggih,” kata Liang kepada 36Kr dalam sebuah wawancara kedua pada tahun 2024. DeepSeek harus menemukan metode yang lebih efisien untuk melatih modelnya. “Mereka mengoptimalkan arsitektur model mereka menggunakan sejumlah trik rekayasa—skema komunikasi kustom antara chip, mengurangi ukuran bidang untuk menghemat memori, dan penggunaan inovatif pendekatan campuran model,” kata Wendy Chang, seorang insinyur perangkat lunak yang beralih profesi menjadi analis kebijakan di Institut Studi China Mercator. “Banyak dari pendekatan ini bukanlah ide-ide baru, tetapi menggabungkannya dengan sukses untuk menghasilkan model cutting-edge adalah prestasi yang luar biasa.” DeepSeek juga telah membuat kemajuan signifikan pada Multi-head Latent Attention (MLA) dan Mixture-of-Experts, dua desain teknis yang membuat model DeepSeek lebih hemat biaya dengan membutuhkan lebih sedikit sumber daya komputasi untuk melatih. Bahkan, model terbaru DeepSeek begitu efisien sehingga membutuhkan sepersepuluh daya komputasi model Llama 3.1 Meta yang sebanding untuk melatih, menurut lembaga penelitian Epoch AI. Keterbukaan DeepSeek untuk membagikan inovasi-inovasi ini dengan publik telah mendapat dukungan besar dari komunitas penelitian AI global. Bagi banyak perusahaan AI China, mengembangkan model open source adalah satu-satunya cara untuk mengejar ketertinggalan dengan pesaing-pesaing mereka di Barat, karena ini menarik lebih banyak pengguna dan kontributor, yang pada gilirannya membantu model-model itu berkembang. “Mereka sekarang telah menunjukkan bahwa model-model cutting-edge dapat dibangun dengan menggunakan uang yang lebih sedikit, meskipun masih banyak, dan bahwa norma-norma saat ini dalam pembangunan model masih menyisakan banyak ruang untuk optimisasi,” kata Chang. “Kita pasti akan melihat lebih banyak upaya dalam arah ini ke depan.” Berita ini bisa menimbulkan masalah bagi kontrol ekspor AS saat ini yang fokusnya pada menciptakan bottleneck sumber daya komputasi. “Estimasi eksisting tentang seberapa besar daya komputasi AI China, dan apa yang bisa mereka capai dengannya, bisa terguncang,” kata Chang.

MEMBACA Sydney mengidentifikasi objek yang menutupi pantai