Tiba-tiba, DeepSeek ada di mana-mana. Model R1-nya bersumber terbuka, konon dilatih dengan biaya sebagian kecil dari model AI lainnya, dan sama bagusnya, kalau tidak lebih baik dari ChatGPT. Kombinasi mematikan ini membuat Wall Street terguncang, mengakibatkan saham teknologi merosot, dan membuat investor bertanya-tanya seberapa banyak uang yang diperlukan untuk mengembangkan model AI yang bagus. Insinyur DeepSeek mengklaim R1 dilatih dengan 2.788 GPU yang biayanya sekitar $6 juta, dibandingkan dengan GPT-4 OpenAI yang dilaporkan menghabiskan $100 juta untuk dilatih. Efisiensi biaya DeepSeek juga menantang gagasan bahwa model yang lebih besar dan data yang lebih banyak menghasilkan kinerja yang lebih baik. Di tengah percakapan heboh tentang kemampuan DeepSeek, ancamannya terhadap perusahaan AI seperti OpenAI, dan investor yang ketakutan, sulit untuk memahami apa yang sedang terjadi. Tetapi para ahli AI dengan pengalaman veteran memberikan pandangan berharga. DeepSeek membuktikan apa yang telah dikatakan para ahli AI selama bertahun-tahun: lebih besar bukan berarti lebih baik. Terhambat oleh pembatasan perdagangan dan akses ke Nvidia GPU, DeepSeek berbasis di China harus kreatif dalam mengembangkan dan melatih R1. Bahwa mereka dapat mencapai prestasi ini hanya dengan $6 juta (yang bukanlah jumlah uang yang besar dalam hal AI) merupakan suatu kejutan bagi investor. Tetapi para ahli AI tidak terkejut. “Di Google, saya bertanya mengapa mereka terpaku pada membangun model TERBESAR. Mengapa Anda mencari ukuran? Fungsi apa yang ingin Anda capai? Mengapa hal yang Anda sesali adalah Anda tidak memiliki model TERBESAR? Mereka menjawab dengan memberhentikan saya,” posting Timnit Gebru, yang terkenal dipecat dari Google karena menyoroti bias AI, di X. Hugging Face’s klimat dan kepala AI Sasha Luccioni menyoroti bagaimana investasi AI dibangun dengan pemasaran dan histeria. “Gila bahwa memberi petunjuk bahwa satu (berkinerja tinggi) LLM mampu mencapai kinerja itu tanpa memaksa keluar ribuan GPU sudah cukup untuk menyebabkan ini,” kata Luccioni. Klarifikasi mengapa DeepSeek R1 begitu penting. DeepSeek R1 berkinerja sebanding dengan model o1 OpenAI pada beberapa uji coba kunci. Ini sedikit melampaui, setara, atau sedikit di bawah o1 pada uji matematika, pemrograman, dan pengetahuan umum. Intinya, ada model lain di luar sana, seperti Anthropic Claude, Google Gemini, dan model sumber terbuka Meta Llama yang sama kompeten bagi pengguna rata-rata. Tetapi R1 menyebabkan kehebohan karena biaya pembuatannya yang sedikit. “Ini bukan lebih pintar dari model-model sebelumnya, hanya dilatih dengan biaya lebih murah,” kata ilmuwan peneliti AI Gary Marcus. Fakta bahwa DeepSeek dapat membangun model yang bersaing dengan model-model OpenAI sungguh luar biasa. Andrej Karpathy yang mendirikan OpenAI, memposting di X, “Apakah ini berarti Anda tidak memerlukan gugus GPU besar untuk LLM perintis? Tidak, tetapi Anda harus memastikan bahwa Anda tidak boros dengan apa yang Anda miliki, dan ini terlihat sebagai demonstrasi yang bagus bahwa masih ada banyak yang harus dilalui dengan kedua data dan algoritma.” Profesor AI Wharton Ethan Mollick mengatakan ini bukanlah tentang kemampuannya, tetapi model-model yang saat ini diakses oleh orang. “DeepSeek adalah model yang sangat bagus, tetapi secara umum bukan model yang lebih baik dari o1 atau Claude,” katanya. “Tetapi karena itu gratis dan mendapatkan banyak perhatian, saya pikir banyak orang yang menggunakan model ‘mini’ gratis terkejut dengan apa yang dapat dilakukan AI penalaran awal 2025 dan terkejut.” Skor satu untuk model AI bersumber terbuka. Kemunculan DeepSeek R1 adalah kemenangan besar bagi para pendukung sumber terbuka yang berpendapat bahwa demokratisasi akses ke model AI yang kuat, memastikan transparansi, inovasi, dan persaingan sehat. “Bagi orang yang berpikir ‘China melampaui AS dalam AI,’ pemikiran yang benar adalah ‘model sumber terbuka melampaui yang tertutup,'” kata Yann LeCun, ilmuwan AI kepala di Meta, yang telah mendukung sumber terbuka dengan model Llama miliknya sendiri. Ilmuwan komputer dan ahli AI Andrew Ng tidak secara eksplisit menyebutkan pentingnya R1 sebagai model sumber terbuka, tetapi menyoroti bagaimana gangguan DeepSeek adalah berkah bagi pengembang, karena memberikan akses yang sebaliknya dijaga oleh Big Tech. “Penjualan ‘DeepSeek’ hari ini di pasar saham – yang diatributkan kepada DeepSeek V3/R1 mengganggu ekosistem teknologi – merupakan tanda lain bahwa lapisan aplikasi adalah tempat yang bagus untuk berada,” kata Ng. “Lapisan model dasar yang sangat kompetitif sangat baik bagi orang-orang yang membangun aplikasi.” Tema-t-tema Kecerdasan Buatan DeepSeek