Ekor Panjang dari Gangguan AWS

Gangguan cloud besar-besaran Amazon Web Services yang dimulai dini hari Senin menggambarkan ketergantungan internet yang rapuh, di mana platform komunikasi, keuangan, kesehatan, pendidikan, dan pemerintahan utama di seluruh dunia mengalami gangguan. Seiring berjalannya hari, AWS mendiagnosis dan mulai memperbaiki masalah yang berasal dari wilayah kritis mereka, US-EAST-1, yang berlokasi di Virginia utara. Namun, dampak beruntunnya memerlukan waktu untuk diselesaikan sepenuhnya.

Para peneliti yang merefleksikan insiden ini secara khusus menyoroti lamanya gangguan, yang dimulai sekitar pukul 3 pagi ET pada hari Senin, 20 Oktober. AWS menyatakan dalam pembaruan status bahwa pada pukul 6:01 malam ET hari Senin, “semua layanan AWS telah kembali beroperasi normal.” Gangguan ini secara langsung berasal dari antarmuka pemrograman aplikasi basis data DynamoDB Amazon dan, menurut perusahaan, “berdampak” pada 141 layanan AWS lainnya. Banyak insinyur jaringan dan spesialis infrastruktur menekankan kepada WIRED bahwa kesalahan dapat dipahami dan tidak terhindarkan untuk yang disebut “hyperscalers” seperti AWS, Microsoft Azure, dan Google Cloud Platform, mengingat kompleksitas dan ukurannya yang sangat besar. Namun, mereka juga mencatat bahwa realitas ini tidak serta merta membebaskan penyedia cloud dari tanggung jawab ketika mereka mengalami downtime yang berkepanjangan.

“Kata ‘kebijaksanaan setelah kejadian’ adalah kuncinya. Mudah untuk mengetahui apa yang salah setelah fakta, tetapi keandalan AWS secara keseluruhan menunjukkan betapa sulitnya mencegah setiap kegagalan,” kata Ira Winkler, Chief Information Security Officer dari firma keandalan dan keamanan siber CYE. “Idealnya, ini akan menjadi pelajaran, dan Amazon akan menerapkan lebih banyak redundansi yang akan mencegah bencana seperti ini terulang di masa depan—atau setidaknya mencegah mereka tidak aktif selama ini.”

MEMBACA  Permainan Batman: Arkham berikutnya eksklusif Meta Quest

AWS tidak menanggapi pertanyaan dari WIRED mengenai ekor panjang pemulihan bagi para pelanggan. Seorang juru bicara AWS mengatakan perusahaan berencana untuk mempublikasikan salah satu “ringkasan pasca-acara” mereka tentang insiden tersebut.

“Saya tidak berpikir ini hanya gangguan ‘hal-hal terjadi’. Saya mengharapkan perbaikan penuh yang jauh lebih cepat,” kata Jake Williams, Wakil Presiden Penelitian dan Pengembangan di Hunter Strategy. “Untuk memberikan pengakuan yang layak, kegagalan beruntun bukanlah sesuatu yang sering mereka alami karena mereka tidak sering mengalami gangguan. Jadi itu adalah poin plus bagi mereka. Tetapi sangat mudah untuk terjebak dalam pola pikir memberi keringanan pada perusahaan-perusahaan ini, dan kita tidak boleh lupa bahwa mereka menciptakan situasi ini dengan secara aktif mencoba menarik lebih banyak pelanggan ke infrastruktur mereka. Klien tidak mengontrol apakah mereka terlalu memaksakan diri atau situasi keuangan mereka.”

Insiden ini disebabkan oleh pelaku yang familiar dalam gangguan web—masalah resolusi “Domain Name System” (DNS). DNS pada dasarnya adalah mekanisme buku telepon internet untuk mengarahkan peramban web ke server yang benar. Akibatnya, masalah DNS adalah sumber gangguan yang umum, karena dapat menyebabkan permintaan gagal dan menghalangi konten untuk dimuat.