Gambar: picture alliance/Contributor/picture alliance via Getty Images
Ikuti ZDNET: Tambahkan kami sebagai sumber preferensi di Google.
Intisari ZDNET
- Layanan Microsoft Azure mengalami gangguan global pada 29 Oktober.
- Layanan Microsoft yang berhadapan langsung dengan pelanggan terdampak.
- Pemulihan terjadi di hari yang sama, namun beberapa masalah masih berlanjut.
Minggu lalu, Amazon Web Services (AWS) mengalami gangguan dan banyak dari kita yang menderita. Minggu ini, giliran Microsoft Azure yang mengalami masalah, dan sekali lagi, kita merasa sangat tidak puas.
Microsoft menyatakan gangguan Azure terbaru ini dimulai sekitar pukul 12.00 ET pada 29 Oktober. Namun, Downdetector, yang mengandalkan laporan pengguna, menunjukkan masalah muncul lebih awal, sekitar pukul 11.40 pagi.
Juga: Gangguan besar AWS yang melumpuhkan separuh internet akhirnya berakhir – inilah yang terjadi.
ThousandEyes, perusahaan keamanan jaringan Cisco, "mendeteksi timeout HTTP, kode error server, dan peningkatan packet loss di tepian jaringan Microsoft, yang mencegah koneksi berhasil ke layanan yang terdampak serta sering kali timeout atau mengembalikan error terkait layanan."
Update Status Terkini
Pada pukul 17.30 ET, 29 Oktober, Microsoft melaporkan, "Kami memulai penerapan konfigurasi ‘last known good’ yang kini telah berhasil diselesaikan. Kami saat ini sedang memulihkan node dan mengarahkan ulang lalu lintas melalui node yang sehat."
Namun, Microsoft melanjutkan, "Seiring pemulihan berlangsung, beberapa permintaan mungkin masih mendarat di node yang tidak sehat, mengakibatkan kegagalan sesekali atau ketersediaan yang berkurang hingga lebih banyak node yang sepenuhnya pulih. Proses pemulihan ini melibatkan pemuatan ulang konfigurasi dan penyeimbangan ulang lalu lintas di sejumlah besar node untuk mengembalikan skala operasional penuh. Proses ini bersifat bertahap untuk memastikan stabilitas dan mencegah kelebihan beban seiring layanan dependen pulih. Kami mengharapkan peningkatan berlanjut di seluruh region yang terdampak. Artinya, kami perkirakan pemulihan penuh akan terjadi pada pukul 23:20 UTC tanggal 29 Oktober 2025."
Itu berarti pukul 19.30 ET.
Pada kenyataannya, butuh waktu sedikit lebih lama. Azure melaporkan bahwa layanan kembali normal pada pukul 20.05 kemarin. Meski begitu, Microsoft memperingatkan bahwa perubahan konfigurasi pelanggan ke Azure Front Door (AFD) untuk sementara akan tetap diblokir. Microsoft berjanji akan memberi tahu pelanggan begitu blokir ini dicabut. Selain itu, meskipun "tingkat error dan latensi telah kembali ke level sebelum insiden, sejumlah kecil pelanggan mungkin masih mengalami masalah, dan kami masih bekerja untuk mengurangi dampak sisa ini."
Jika Anda masih mengalami masalah hari ini, hubungi Azure. Jika keadaan benar-benar kacau, Microsoft merekomendasikan untuk mempertimbangkan penerapan strategi failover yang ada menggunakan Azure Traffic Manager untuk mengalihkan lalu lintas dari Azure Front Door ke server asal sebagai langkah sementara." Ini bukanlah perbaikan yang mudah. Jika staf Anda tidak berpengalaman dengan perutean lalu lintas Azure, saya sarankan untuk bersabar dan menunggu Azure benar-benar pulih sepenuhnya.
Berbeda dengan kegagalan AWS yang – meski dampaknya masif – terbatas pada satu region (AWS East), menurut halaman Status Azure per pukul 13.30 ET, semua region Azure mengalami gangguan.
Menelusuri Penerapan yang Bermasalah
Kita masih belum memiliki laporan final tentang apa yang sebenarnya terjadi. Awalnya, Microsoft hanya mengatakan, "Mulai sekitar pukul 16:00 UTC, kami mulai mengalami masalah Azure Front Door (AFD) yang mengakibatkan hilangnya ketersediaan beberapa layanan. Kami curiga bahwa perubahan konfigurasi yang tidak disengaja menjadi pemicu masalah ini. Kami mengambil dua tindakan bersamaan dengan memblokir semua perubahan pada layanan AFD dan, pada saat yang sama, mengembalikan ke keadaan ‘last known good’."
Laporan awal Microsoft tentang insiden tersebut menyatakan, "Perubahan konfigurasi tenant yang tidak disengaja di dalam AFD memicu gangguan layanan luas yang mempengaruhi kedua layanan Microsoft dan aplikasi pelanggan yang bergantung pada AFD untuk pengiriman konten global." Perubahan tersebut menyebabkan keadaan konfigurasi yang tidak valid, yang pada gilirannya menyebabkan sejumlah besar node AFD gagal dimuat dengan benar, termasuk peningkatan latensi, timeout, dan error koneksi untuk layanan hilir. Singkatnya, keadaan benar-benar kacau.
Seiring node yang tidak sehat keluar dari kumpulan global, distribusi lalu lintas di node yang sehat menjadi tidak seimbang, memperbesar dampak dan menyebabkan ketersediaan yang terputus-putus bahkan di region yang sebagian sehat. Microsoft segera "memblokir semua perubahan konfigurasi lebih lanjut untuk mencegah penyebaran keadaan salah tambahan dan mulai menerapkan konfigurasi ‘last known good’ di seluruh armada global. Pemulihan memerlukan pemuatan ulang konfigurasi di sejumlah besar node dan penyeimbangan ulang lalu lintas secara bertahap untuk menghindari kondisi kelebihan beban saat node kembali beroperasi. Pemulihan bertahap dan terencana ini diperlukan untuk menstabilkan sistem sambil mengembalikan skala dan memastikan tidak terulangnya masalah ini."
Masalah ini telah ditelusuri kembali ke proses penerapan konfigurasi tenant yang bermasalah. "Mekanisme perlindungan kami untuk memvalidasi dan memblokir penerapan yang salah, gagal karena cacat perangkat lunak yang memungkinkan penerapan melewati validasi keamanan. Pengaman sejak itu telah ditinjau, dan kontrol validasi serta rollback tambahan telah segera diterapkan untuk mencegah masalah serupa di masa depan."
Meski tidak disebutkan dalam dokumen ini, laporan Azure awal menyebutkan sebagian penyebabnya adalah – benar tebakan Anda! – masalah Sistem Nama Domain (DNS). Katakan bersama saya: Ketika ada masalah jaringan, "Selalu saja DNS!"
Situs dan Layanan Mana Saja yang Terdampak?
Pengguna biasa juga merasakan dampaknya. Layanan populer seperti Microsoft 365 dan Microsoft Intune untuk pengguna bisnis serta Xbox Live dan Minecraft bagi yang hanya ingin bersenang-senang juga mengalami gangguan. Lainnya melaporkan bahwa login Microsoft juga melambat sangat parah atau gagal sama sekali.
Layanan berikut terdampak:
- Microsoft 365
- Microsoft Azure
- Microsoft Copilot
- Microsoft Entra
- Microsoft Store
- Microsoft Teams
- Minecraft
- Xbox
Hari yang buruk jika Anda bergantung pada Microsoft.
Alaska Airlines mengalami gangguan pada sistem internal kritisnya, termasuk situs web dan infrastruktur operasional. Vodafone di Inggris dan Bandara Heathrow juga dilaporkan terdampak oleh gangguan ini.
Di balik layar, Microsoft kini melaporkan bahwa layanan Azure berikut terdampak: App Service, Azure Active Directory B2C, Azure Communication Services, Azure Databricks, Azure Healthcare APIs, Azure Maps, Azure Portal, Azure SQL Database, Container Registry, Media Services, Microsoft Defender External Attack Surface Management, Microsoft Entra ID, Microsoft Purview, Microsoft Sentinel, Video Indexer, dan Virtual Desktop.
Sebelumnya, analis telekomunikasi Ookla, Luke Kehoe, mengatakan, "Microsoft Azure telah membuat banyak layanan offline di seluruh dunia, dengan dampak yang luas di maskapai penerbangan, bank, dan instansi pemerintah. Ini adalah kejadian kedua bulan ini, yang menyoroti risiko sistemik dari konsentrasi dan titik kegagalan logis tunggal, terlepas dari seberapa kuat infrastruktur secara fisik."
Dia ada benarnya. Kita terlalu bergantung pada AWS, Azure, dan layanan cloud lainnya, yang ketika bermasalah, ternyata menjadi titik kegagalan tunggal.
Terlepas dari itu, dalam laporan kuartalan terkininya, yang dirilis setelah penutupan pasar di hari yang sama, Microsoft melaporkan bahwa mereka mengalahkan perkiraan Wall Street dan bahwa pendapatan Azure tumbuh sekitar 40%. Namun, dengan kegagalan yang berlarut ini dan pengakuan Microsoft bahwa mereka tidak dapat memenuhi permintaan AI dan cloud, saham Microsoft anjlok dalam perdagangan after-market.