Bagaimana perusahaan rintisan kecerdasan buatan China, DeepSeek, membuat terkejut Silicon Valley

Sebuah laboratorium kecerdasan buatan kecil asal Tiongkok membuat dunia terkejut pekan ini dengan mengungkap resep teknis untuk model terkini mereka, membuat pemimpin mereka yang tertutup menjadi pahlawan nasional yang telah menantang ambisi teknologi tinggi Tiongkok yang ingin dihentikan Amerika Serikat.

DeepSeek, yang didirikan oleh pengelola dana lindung nilai Liang Wenfeng, merilis model R1 mereka pada hari Senin, menjelaskan dalam sebuah makalah rinci bagaimana membangun model bahasa besar dengan anggaran terbatas yang dapat secara otomatis belajar dan meningkatkan dirinya sendiri tanpa pengawasan manusia.

Perusahaan-perusahaan AS termasuk OpenAI dan Google DeepMind memimpin perkembangan dalam model penalaran, sebuah bidang penelitian kecerdasan buatan yang relatif baru yang berusaha membuat model-model sejajar dengan kemampuan kognitif manusia. Pada bulan Desember, OpenAI yang berbasis di San Francisco merilis versi lengkap model o1 mereka tetapi merahasiakan metodenya.

Dirilisnya R1 oleh DeepSeek memicu debat sengit di Silicon Valley tentang apakah perusahaan kecerdasan buatan AS yang lebih berdaya, termasuk Meta dan Anthropic, dapat mempertahankan keunggulan teknis mereka.

Sementara itu, Liang telah menjadi titik fokus kebanggaan nasional di dalam negeri. Pekan ini, dia adalah satu-satunya pemimpin kecerdasan buatan yang dipilih untuk menghadiri pertemuan yang dipublikasikan bersama pengusaha dengan pemimpin kedua negara, Li Qiang. Para pengusaha diminta untuk “mengkonsentrasikan upaya untuk menembus teknologi inti kunci.”

Pada tahun 2021, Liang mulai membeli ribuan unit pemrosesan grafis Nvidia untuk proyek sampingan kecerdasan buatannya sambil menjalankan dana perdagangan kuantitatifnya, High-Flyer. Insiders industri melihatnya sebagai tindakan eksentrik seorang miliarder yang mencari hobi baru.

“Ketika pertama kali bertemu dengannya, dia adalah orang yang sangat kutu buku dengan gaya rambut yang mengerikan yang berbicara tentang membangun klaster 10.000 chip untuk melatih modelnya sendiri. Kami tidak menganggapnya serius,” kata salah satu mitra bisnis Liang.

MEMBACA Berapa Lama Tingkat Bunga Tinggi Akan Berlangsung? Pasar Obligasi Mengatakan Mungkin Selamanya

“Dia tidak bisa mengartikulasikan visinya selain mengatakan: Saya ingin membangun ini, dan ini akan menjadi permainan baru. Kami pikir ini hanya mungkin dari raksasa seperti ByteDance dan Alibaba,” tambah orang tersebut.

Status Liang sebagai seorang ‘outsider’ dalam bidang kecerdasan buatan menjadi sumber kekuatan yang tak terduga. Di High-Flyer, dia membangun kekayaan dengan menggunakan kecerdasan buatan dan algoritma untuk mengidentifikasi pola-pola yang dapat mempengaruhi harga saham. Timnya menjadi terampil dalam menggunakan chip Nvidia untuk menghasilkan uang dari perdagangan saham. Pada tahun 2023, dia meluncurkan DeepSeek, mengumumkan niatnya untuk mengembangkan kecerdasan buatan tingkat manusia.

“Liang membangun tim infrastruktur yang luar biasa yang benar-benar memahami cara kerja chip-chip tersebut,” kata seorang pendiri perusahaan LLM pesaing.

Setelah Washington melarang Nvidia mengekspor chip terkuatnya ke Tiongkok, perusahaan-perusahaan kecerdasan buatan lokal terpaksa mencari cara inovatif untuk memaksimalkan daya komputasi dari sejumlah terbatas chip di daratan – sebuah masalah yang tim Liang sudah tahu cara memecahkannya.

“Insinyur-insinyur DeepSeek tahu cara membuka potensi dari GPU-GPU ini, meskipun bukan yang terbaru,” kata seorang peneliti kecerdasan buatan yang dekat dengan perusahaan tersebut.

Insiders industri mengatakan bahwa fokus tunggal DeepSeek pada penelitian membuatnya menjadi pesaing yang berbahaya karena bersedia membagikan terobosan-terobosannya daripada melindunginya untuk keuntungan komersial. DeepSeek tidak mengumpulkan dana dari dana luar atau melakukan langkah-langkah signifikan untuk memonetisasi model-modelnya.

“DeepSeek dijalankan seperti masa-masa awal DeepMind,” kata seorang investor kecerdasan buatan di Beijing. “Murni berfokus pada penelitian dan rekayasa.”

Liang, yang secara pribadi terlibat dalam penelitian DeepSeek, menggunakan hasil dari perdagangan hedge fund-nya untuk membayar gaji tertinggi bagi bakat-bakat kecerdasan buatan terbaik. Bersama pemilik TikTok ByteDance, DeepSeek dikenal memberikan upah tertinggi yang tersedia kepada insinyur kecerdasan buatan di Tiongkok, dengan staf berbasis di kantor-kantor di Hangzhou dan Beijing.

MEMBACA Apakah UnitedHealth Group (UNH) Saham Kesehatan Terbaik Menurut Miliarder Ken Griffin?

“Kantor-kantor DeepSeek terasa seperti kampus universitas bagi para peneliti serius,” kata mitra bisnis tersebut. “Tim ini percaya pada visi Liang: untuk menunjukkan kepada dunia bahwa orang Tiongkok dapat menjadi kreatif dan membangun sesuatu dari nol.”

DeepSeek dan High-Flyer tidak menanggapi permintaan untuk komentar.

Liang telah memposisikan DeepSeek sebagai perusahaan yang unik “lokal”, diisi dengan orang-orang berpendidikan PhD dari universitas-universitas terkemuka di Tiongkok, Universitas Peking, Tsinghua, dan Beihang daripada ahli dari lembaga-lembaga AS.

Dalam wawancara dengan pers dalam negeri tahun lalu, dia mengatakan tim inti-nya “tidak memiliki orang-orang yang kembali dari luar negeri. Mereka semua lokal… Kami harus mengembangkan bakat terbaik kami sendiri.” Identitas DeepSeek sebagai perusahaan LLM China murni telah memenangkan pujian di dalam negeri.

DeepSeek mengklaim hanya menggunakan 2.048 Nvidia H800 dan $5.6 juta untuk melatih model dengan 671 miliar parameter, hanya sebagian kecil dari yang OpenAI dan Google habiskan untuk melatih model seukuran yang sama.

Ritwik Gupta, peneliti kebijakan kecerdasan buatan di Universitas California, Berkeley, mengatakan rilis model terbaru DeepSeek menunjukkan bahwa “tidak ada parit ketika datang ke kemampuan kecerdasan buatan”.

“Orang pertama yang melatih model harus mengeluarkan banyak sumber daya untuk mencapainya,” katanya. “Tapi orang kedua bisa mencapainya dengan lebih murah dan lebih cepat.”

Gupta menambahkan bahwa Tiongkok memiliki lebih banyak insinyur sistem yang memahami cara mendapatkan penggunaan terbaik dari sumber daya komputasi untuk melatih dan menjalankan model-model dengan biaya lebih murah daripada AS.

Insiders industri mengatakan bahwa meskipun DeepSeek telah menunjukkan hasil yang mengesankan dengan sumber daya yang terbatas, masih menjadi pertanyaan terbuka apakah mereka dapat terus bersaing saat industri berkembang.

MEMBACA Pemimpin PNG memberikan pidato bersejarah di Australia di tengah ketegangan dengan China.

Return di High-Flyer, pendukung besar mereka, tertinggal di belakang pada tahun 2024, yang satu orang dekat Liang menyalahkan pada fokus pendiri yang sebagian besar terfokus pada DeepSeek.

Pesaing-pesaing AS mereka tidak tinggal diam. Mereka membangun mega “klaster” chip Blackwell generasi berikutnya dari Nvidia, menciptakan daya komputasi yang mengancam untuk sekali lagi menciptakan kesenjangan kinerja dengan pesaing-pesaing Tiongkok.

Pekan ini, OpenAI mengatakan sedang membuat sebuah usaha patungan dengan SoftBank Jepang, yang diberi nama Stargate, dengan rencana untuk menghabiskan setidaknya $100 miliar pada infrastruktur kecerdasan buatan di AS. xAI milik Elon Musk sedang memperluas superkomputer Colossus-nya untuk berisi lebih dari 1 juta GPU untuk membantu melatih model Grok AI mereka.

“DeepSeek memiliki salah satu klaster komputasi canggih terbesar di Tiongkok,” kata mitra bisnis Liang. “Mereka memiliki kapasitas yang cukup untuk saat ini, tetapi tidak untuk waktu yang lama.”

Reporting tambahan oleh Wenjie Ding di Beijing