Cara Baru DeepSeek Melatih Model AI Canggih yang Bisa Mengubah Segalanya—Kembali

Kredit foto: Flavio Coelho / Moment via Getty
Ikuti ZDNET: Tambahkan kami sebagai sumber pilihan di Google.

Poin Penting ZDNET

  • DeepSeek memperkenalkan Manifold-Constrained Hyper-Connections (mHC).
  • Teknik ini menawarkan cara untuk menskalakan model bahasa besar (LLM) tanpa biaya komputasi yang sangat besar.
  • Perusahaan menunda perilisan model R2 yang semula dijadwalkan pertengahan 2025.

    Menjelang akhir tahun, dunia AI dikenalkan pada metode baru yang berpotensi mengubah permainan untuk melatih model-model canggih.

    Tim peneliti dari perusahaan AI China, DeepSeek, merilis makalah yang menguraikan apa yang mereka sebut Manifold-Constrained Hyper-Connections (mHC). Metode ini mungkin memberikan jalan bagi insinyur untuk membangun dan menskalakan LLM tanpa memerlukan biaya komputasi besar yang biasa dibutuhkan.

    DeepSeek melesat ke sorotan budaya setahun yang lalu dengan perilisan model R1, yang mampu menyaingi kemampuan OpenAI o1 dan dikabarkan dilatih dengan biaya yang jauh lebih rendah. Keberhasilan ini mengejutkan pengembang teknologi AS, karena menunjukkan bahwa akses ke modal dan sumber daya komputasi raksasa belum tentu diperlukan untuk melatih model AI mutakhir.

    Makalah mHC yang baru ini bisa menjadi kerangka teknologi untuk model DeepSeek selanjutnya, R2. Rencana peluncuran R2 yang semula dijadwalkan pertengahan tahun lalu ditunda, dilaporkan karena keterbatasan akses China ke chip AI canggih dan kekhawatiran CEO DeepSeek, Liang Wenfeng, terkait performa model tersebut.

    Tantangan yang Dihadapi

    Dipublikasikan di server pracetak arXiv, makalah baru DeepSeek ini merupakan upaya untuk menjembatani kesenjangan teknis yang kompleks dan penting, yang menghambat skalabilitas model AI. LLM dibangun di atas jaringan saraf, yang dirancang untuk mempertahankan sinyal informasi melintasi banyak lapisan. Masalahnya, semakin banyak lapisan yang ditambahkan, sinyal tersebut semakin berisiko melemah, terdegradasi, atau berubah menjadi noise. Mirip seperti permainan telepon berantai: semakin banyak orang yang terlibat, pesan awal semakin mungkin terkacaukan.

    Tantangan intinya adalah membangun model yang dapat mempertahankan sinyalnya melintasi sebanyak mungkin lapisan—atau, seperti yang dijelaskan peneliti DeepSeek, "mengoptimalkan pertukaran antara plastisitas dan stabilitas."

    Solusi yang Ditawarkan

    Para penulis makalah—termasuk CEO Liang Wenfeng—mengembangkan konsep hyper-connections (HC), sebuah kerangka kerja yang diperkenalkan tahun 2024 oleh peneliti ByteDance. HC memperbanyak saluran tempat lapisan jaringan saraf dapat bertukar informasi. Namun, HC juga memperbesar risiko hilangnya sinyal asli dan membutuhkan biaya memori yang tinggi, sehingga sulit diterapkan dalam skala besar.

    Arsitektur mHC bertujuan mengatasi ini dengan membatasi hiperkonektivitas di dalam model. Dengan demikian, kompleksitas informasi yang dimungkinkan oleh HC dapat dipertahankan, sementara masalah memori dapat dihindari. Implikasinya, pelatihan model yang sangat kompleks bisa menjadi lebih praktis dan mudah diskalakan, bahkan bagi pengembang dengan sumber daya terbatas.

    Mengapa Ini Penting

    Seperti halnya peluncuran R1 pada Januari 2025, kehadiran kerangka kerja mHC dapat mengisyaratkan arah baru dalam evolusi AI. Selama ini, anggapan umum dalam perlombaan AI adalah hanya perusahaan besar dengan kantong dalam yang mampu membangun model frontier. Namun, DeepSeek terus menunjukkan bahwa workaround itu mungkin, dan terobosan dapat dicapai hanya melalui rekayasa yang cerdas.

    Fakta bahwa perusahaan telah mempublikasikan penelitian mHC-nya berarti metode ini dapat diadopsi secara luas oleh pengembang yang lebih kecil, terlebih jika nantinya digunakan oleh model R2 yang sangat dinantikan (tanggal rilis resminya belum diumumkan).

MEMBACA  Analisis lengkap grafik S&P 500 dan apa yang ditunjukkannya tentang paruh kedua

Tinggalkan komentar