Sumber Gambar: zf L/Moment/Getty Images
Ikuti ZDNET: Tambahkan kami sebagai sumber pilihan di Google.
**Poin Penting ZDNET:**
* Program ini memastikan pengguna dapat memigrasikan beban kerja AI di antara berbagai distribusi Kubernetes.
* Kubernetes akhirnya akan mendukung fitur *rollback* untuk mengembalikan klaster ke kondisi normal jika terjadi masalah.
* Beberapa peningkatan lainnya akan membuat Kubernetes semakin ramah untuk beban kerja AI.
Lebih dari satu dekade lalu, terdapat banyak alternatif untuk Kubernetes dalam hal orkestrasi kontainer. Kini, kecuali Anda sudah lama berkecimpung di komputasi *cloud-native*, Anda mungkin kesulitan menyebutkan salah satunya. Ini karena Kubernetes jelas-jelas merupakan pilihan terbaik.
Pada masa itu, container, berkat Docker, adalah teknologi baru yang sedang tren. Melompat satu dekade ke depan, teknologi yang kini menjadi perbincangan hangat adalah AI. Untuk itulah, Cloud Native Computing Foundation (CNCF) meluncurkan Certified Kubernetes AI Conformance Program (CKACP) pada KubeCon North America 2025 di Atlanta sebagai cara terstandarisasi untuk menerapkan beban kerja AI pada klaster Kubernetes.
Platform yang Aman dan Universal untuk Beban Kerja AI
Tujuan CKACP adalah menciptakan standar terbuka yang didefinisikan komunitas untuk menjalankan beban kerja AI secara konsisten dan andal di berbagai lingkungan Kubernetes.
Juga: Alasan di balik perusahaan teknologi AS meluncurkan dukungan ‘kedaulatan’ untuk Eropa saat ini
CTO CNCF Chris Aniszczyk mengatakan, “Program kesesuaian ini akan menciptakan kriteria bersama untuk memastikan beban kerja AI berperilaku dapat diprediksi di berbagai lingkungan. Ini dibangun berdasarkan proses yang digerakkan komunitas yang sama suksesnya seperti yang kami gunakan dengan Kubernetes untuk membantu menciptakan konsistensi di lebih dari 100 sistem Kubernetes seiring adopsi AI yang semakin meluas.”
Secara spesifik, inisiatif ini dirancang untuk:
* Memastikan portabilitas dan interoperabilitas untuk beban kerja AI dan *machine learning* (ML) di berbagai *public cloud*, infrastruktur privat, dan lingkungan hibrid, memungkinkan organisasi menghindari *vendor lock-in* ketika memindahkan beban kerja AI kemanapun diperlukan.
* Mengurangi fragmentasi dengan menetapkan dasar kemampuan dan konfigurasi bersama yang harus didukung oleh platform, memudahkan perusahaan untuk mengadopsi dan meningkatkan skala AI di Kubernetes dengan percaya diri.
* Memberikan target kepatuhan yang jelas bagi vendor dan kontributor *open-source* untuk memastikan teknologi mereka dapat bekerja sama dan mendukung penerapan AI yang siap produksi.
* Memungkinkan pengguna akhir untuk berinovasi dengan cepat, dengan keyakinan bahwa platform bersertifikat telah menerapkan praktik terbaik untuk manajemen sumber daya, integrasi GPU, dan kebutuhan infrastruktur AI kunci, yang telah diuji dan divalidasi oleh CNCF.
* Mendorong ekosistem pengembangan AI yang terbuka dan terpercaya, di mana standar memungkinkan untuk meningkatkan skala, mengoptimalkan, dan mengelola beban kerja AI secara efisien seiring peningkatan penggunaannya di berbagai industri.
Singkatnya, inisiatif ini berfokus pada penyediaan kerangka kerja umum yang teruji bagi perusahaan maupun vendor untuk memastikan AI berjalan andal, aman, dan efisien di platform Kubernetes bersertifikat mana pun.
Jika pendekatan ini terdengar familiar, ya memang seharusnya, karena ini didasarkan pada Certified Kubernetes Conformance Program milik CNCF yang sukses. Berkat rencana dan kesepakatan tahun 2017 itulah, jika Anda tidak puas dengan, katakanlah, Red Hat OpenShift, Anda dapat mengambil beban kerja *container* Anda dan memindahkannya ke Mirantis Kubernetes Engine atau Amazon Elastic Kubernetes Service tanpa khawatir akan ketidakcocokan. Portabilitas ini, pada gilirannya, adalah alasan mengapa Kubernetes menjadi fondasi bagi banyak *hybrid cloud*.
Juga: Berkoding dengan AI? 5 tips terbaik saya untuk memeriksa keluarannya – dan terhindar dari masalah
Dengan 58% organisasi yang telah menjalankan beban kerja AI di Kubernetes, program baru CNCF ini diharapkan dapat secara signifikan menyederhanakan cara tim menerapkan, mengelola, dan berinovasi dalam AI. Dengan menawarkan kriteria pengujian umum, arsitektur referensi, dan integrasi yang divalidasi untuk dukungan GPU dan akselerator, program ini bertujuan menjadikan infrastruktur AI lebih tangguh dan aman di lingkungan *multi-vendor* dan *multi-cloud*.
Seperti yang dikatakan Jago Macleod, Direktur Teknik Kubernetes & GKE di Google Cloud, di Kubecon, “Di Google Cloud, kami telah menyertifikasi Kubernetes AI Conformance karena kami percaya konsistensi dan portabilitas sangat penting untuk meningkatkan skala AI. Dengan menyelaraskan diri dengan standar ini sejak dini, kami memudahkan para pengembang dan perusahaan untuk membangun aplikasi AI yang siap produksi, portabel, dan efisien, tanpa harus menciptakan ulang infrastruktur untuk setiap penerapan.”
Memahami Berbagai Peningkatan Kubernetes
Itu bukanlah satu-satunya hal yang disampaikan Macleod tentang masa depan Kubernetes. Google dan CNCF memiliki rencana lain untuk *container orchestrator* yang memimpin pasar ini. Peningkatan penting yang akan datang mencakup dukungan *rollback*, kemampuan untuk melewatkan pembaruan, dan kontrol tingkat rendah baru untuk GPU serta perangkat keras spesifik AI lainnya.
Dalam pidato kuncinya, MacLeod menjelaskan bahwa untuk pertama kalinya, pengguna Kubernetes kini memiliki fitur *rollback* versi minor yang andal. Fitur ini berarti klaster dapat dikembalikan dengan aman ke keadaan yang diketahui baik setelah pembaruan. Kemampuan ini mengakhiri masalah lama pembaruan *control-plane* Kubernetes yang seperti “jalan satu arah”. *Rollback* akan sangat mengurangi risiko dalam mengadopsi fitur baru yang kritis atau *patch* keamanan mendesak.
Seiring dengan peningkatan ini, pengguna Kubernetes kini dapat melewatkan pembaruan tertentu. Pendekatan ini memberikan administrator lebih banyak fleksibilitas dan kontrol saat merencanakan migrasi versi atau menanggapi insiden produksi.
Selain CKACP, Kubernetes sedang diarahkan ulang untuk mendukung tuntutan beban kerja AI secara *native*. Dukungan ini berarti Kubernetes akan memberi pengguna kontrol granular atas perangkat keras seperti GPU, TPU, dan akselerator kustom. Kemampuan ini juga menjawab keragaman dan kebutuhan skala yang sangat besar dari perangkat keras AI modern.
Juga: SUSE Enterprise Linux 16 telah hadir, dan fitur andalannya adalah kedaulatan digital
Selain itu, API baru dan fitur *open-source*, termasuk Agent Sandbox dan Multi-Tier Checkpointing, diumumkan pada acara tersebut. Fitur-fitur ini akan lebih mempercepat operasi *inference*, pelatihan, dan AI agen dalam klaster. Inovasi seperti alokasi sumber daya tingkat *node*, penyediaan GPU dinamis, dan optimasi *scheduler* untuk perangkat keras AI menjadi fondasi bagi peneliti dan perusahaan yang menjalankan klaster *multi-tenant*.
Agent Sandbox adalah kerangka kerja dan *controller open-source* yang memungkinkan pengelolaan lingkungan yang terisolasi dan aman, juga dikenal sebagai *sandbox*, yang dirancang untuk menjalankan beban kerja *stateful* dan *singleton*, seperti agen AI otonom, *interpreter* kode, dan alat pengembangan. Fitur utama Agent Sandbox adalah:
* **Isolasi dan Keamanan:** Setiap *sandbox* diisolasi dengan kuat di tingkat kernel dan jaringan menggunakan teknologi seperti gVisor atau Kata Containers, sehingga aman untuk menjalankan kode yang tidak terpercaya (misalnya, dihasilkan oleh *large language model*) tanpa membahayakan integritas sistem host atau klaster.
* **API Deklaratif:** Pengguna dapat mendeklarasikan lingkungan dan templat *sandbox* menggunakan sumber daya *Kubernetes-native* (Sandbox, SandboxTemplate, SandboxClaim), memungkinkan pembuatan dan pengelolaan instansi terisolasi yang cepat dan dapat diulang.
* **Skala dan Kinerja:** Agent Sandbox mendukung ribuan *sandbox* *stateful* yang berjalan bersamaan dengan penyediaan *on-demand* yang cepat. Kemampuan ini akan sangat baik untuk beban kerja agen AI, eksekusi kode, atau lingkungan pengembang yang persisten.
* ***Snapshot* dan Pemulihan:** Di Google Kubernetes Engine (GKE), Agent Sandbox dapat memanfaatkan Pod Snapshots untuk *checkpointing* cepat, hibernasi, dan kelanjutan instan, secara dramatis mengurangi latensi awal dan mengoptimalkan penggunaan sumber daya untuk beban kerja AI.
Saat ini, Kategori Tekno