Model Kecerdasan Buatan Baru DeepSeek Membuat Kekagetan, Kepuasan, dan Pertanyaan Dari Kompetitor AS

Harga sebenarnya dari pengembangan model-model baru DeepSeek masih belum diketahui, namun, karena satu angka yang dikutip dalam satu paper penelitian mungkin tidak menangkap gambaran penuh dari biayanya. “Saya tidak percaya itu $6 juta, tetapi bahkan jika itu $60 juta, itu permainan yang mengubah,” kata Umesh Padval, direktur manajer Thomvest Ventures, sebuah perusahaan yang telah berinvestasi di Cohere dan perusahaan kecerdasan buatan lainnya. “Ini akan memberikan tekanan pada profitabilitas perusahaan yang berfokus pada kecerdasan buatan konsumen.”

Sebentar setelah DeepSeek mengungkapkan rincian model terbarunya, Ghodsi dari Databricks mengatakan pelanggan mulai bertanya apakah mereka dapat menggunakannya serta teknik dasar DeepSeek untuk memotong biaya di organisasi mereka sendiri. Dia menambahkan bahwa pendekatan yang digunakan oleh insinyur DeepSeek, yang dikenal sebagai distilasi, yang melibatkan penggunaan output dari satu model bahasa besar untuk melatih model lain, relatif murah dan mudah.

Padval mengatakan bahwa keberadaan model seperti DeepSeek akan menguntungkan perusahaan yang ingin menghabiskan lebih sedikit untuk kecerdasan buatan, namun dia mengatakan bahwa banyak perusahaan mungkin memiliki keberatan tentang bergantung pada model China untuk tugas-tugas sensitif. Sejauh ini, setidaknya satu perusahaan kecerdasan buatan terkemuka, Perplexity, telah secara publik mengumumkan bahwa mereka menggunakan model R1 DeepSeek, namun mereka mengatakan bahwa itu dihosting “sepenuhnya independen dari China.”

Amjad Massad, CEO Replit, startup yang menyediakan alat pemrograman kecerdasan buatan, mengatakan kepada WIRED bahwa ia berpikir model terbaru DeepSeek mengesankan. Meskipun ia masih menemukan bahwa model Sonnet Anthropics lebih baik dalam banyak tugas rekayasa komputer, ia menemukan bahwa R1 sangat baik dalam mengubah perintah teks menjadi kode yang dapat dieksekusi pada komputer. “Kami sedang menjelajahi penggunaannya terutama untuk penalaran agen,” tambahnya.

MEMBACA Nathan Fillion Mengisyaratkan Perjalanan Guy Gardner dari 'Superman' ke 'Lanterns'

Dua penawaran terbaru DeepSeek – DeepSeek R1 dan DeepSeek R1-Zero – mampu melakukan jenis penalaran simulasi yang sama seperti sistem tercanggih dari OpenAI dan Google. Semuanya bekerja dengan memecah masalah menjadi bagian-bagian penyusun untuk menanganinya dengan lebih efektif, sebuah proses yang memerlukan pelatihan tambahan yang cukup untuk memastikan bahwa kecerdasan buatan secara konsisten mencapai jawaban yang benar.

Sebuah paper yang dipublikasikan oleh peneliti DeepSeek minggu lalu menguraikan pendekatan yang digunakan perusahaan untuk membuat model-model R1-nya, yang mereka klaim berhasil dalam beberapa benchmark sebagaimana model penalaran terobosan OpenAI yang dikenal sebagai o1. Taktik yang digunakan DeepSeek termasuk metode yang lebih otomatis untuk belajar cara memecahkan masalah dengan benar serta strategi untuk mentransfer keterampilan dari model yang lebih besar ke yang lebih kecil.

Salah satu topik paling panas tentang spekulasi tentang DeepSeek adalah perangkat keras yang mungkin mereka gunakan. Pertanyaannya sangat penting karena pemerintah AS telah memperkenalkan serangkaian kendali ekspor dan pembatasan perdagangan lainnya selama beberapa tahun terakhir yang ditujukan untuk membatasi kemampuan China untuk mengakuisisi dan memproduksi chip canggih yang diperlukan untuk membangun kecerdasan buatan canggih.

Dalam sebuah paper penelitian dari Agustus 2024, DeepSeek menunjukkan bahwa mereka memiliki akses ke sebuah cluster 10.000 chip Nvidia A100, yang ditempatkan di bawah kendali AS yang diumumkan pada Oktober 2022. Dalam sebuah paper terpisah dari bulan Juni tahun itu, DeepSeek menyatakan bahwa model sebelumnya yang mereka buat yang disebut DeepSeek-V2 dikembangkan menggunakan cluster chip komputer Nvidia H800, komponen yang kurang mampu yang dikembangkan oleh Nvidia untuk mematuhi kendali ekspor AS.

Seorang sumber di salah satu perusahaan kecerdasan buatan yang melatih model-model kecerdasan buatan besar, yang meminta anonimitas untuk melindungi hubungan profesional mereka, memperkirakan bahwa DeepSeek kemungkinan menggunakan sekitar 50.000 chip Nvidia untuk membangun teknologinya.

MEMBACA Eksternalitas Lingkungan dan Kegagalan Pasar

Nvidia menolak untuk berkomentar secara langsung tentang chip mana yang mungkin digunakan DeepSeek. “DeepSeek adalah kemajuan kecerdasan buatan yang sangat baik,” kata juru bicara Nvidia dalam sebuah pernyataan, menambahkan bahwa pendekatan penalaran startup “memerlukan jumlah Nvidia GPU yang signifikan dan jaringan kinerja tinggi.”

Bagaimanapun model-model DeepSeek dibangun, mereka tampaknya menunjukkan bahwa pendekatan yang lebih terbuka untuk mengembangkan kecerdasan buatan semakin mendapatkan momentum. Pada Desember, Clem Delangue, CEO HuggingFace, platform yang menyediakan model kecerdasan buatan, memprediksi bahwa perusahaan China akan memimpin dalam kecerdasan buatan karena kecepatan inovasi yang terjadi dalam model open source, yang sebagian besar telah diterima oleh China. “Ini berjalan lebih cepat dari yang saya kira,” katanya.