Bagaimana Departemen TI Berusaha Mengatasi Kekacauan CrowdStrike

Pada sekitar pukul 1:00 pagi waktu setempat pada hari Jumat, seorang administrator sistem untuk perusahaan di Pantai Barat yang menangani layanan pemakaman dan mortuarium terbangun tiba-tiba dan melihat layar komputernya menyala. Ketika dia memeriksa telepon perusahaannya, itu dipenuhi dengan pesan tentang apa yang rekan-rekannya sebut sebagai masalah jaringan. Infrastruktur mereka seluruhnya down, mengancam untuk mengganggu pemakaman dan pemakaman.

Tidak lama kemudian menjadi jelas bahwa gangguan besar tersebut disebabkan oleh gangguan CrowdStrike. Perusahaan keamanan secara tidak sengaja menyebabkan kekacauan di seluruh dunia pada hari Jumat dan akhir pekan setelah mendistribusikan perangkat lunak yang cacat ke platform pemantauan Falcon-nya, merusak maskapai penerbangan, rumah sakit, dan bisnis lainnya, baik kecil maupun besar.

Administrator, yang meminta untuk tetap anonim karena tidak diizinkan untuk berbicara secara publik tentang gangguan tersebut, langsung bertindak. Dia akhirnya bekerja selama hampir 20 jam, mengemudi dari mortuary ke mortuary dan mereset puluhan komputer secara langsung untuk menyelesaikan masalah tersebut. Situasinya mendesak, jelas administrator, karena komputer perlu kembali online sehingga tidak ada gangguan dalam penjadwalan layanan pemakaman dan komunikasi mortuarium dengan rumah sakit.

“Dengan masalah sebesar yang kami lihat dengan gangguan CrowdStrike, masuk akal untuk memastikan bahwa perusahaan kami siap sehingga kami bisa mendapatkan keluarga ini, sehingga mereka bisa mengikuti layanan dan bersama anggota keluarga mereka,” kata administrator sistem. “Orang sedang berduka.”

Pembaruan CrowdStrike yang cacat mengunci sekitar 8,5 juta komputer Windows di seluruh dunia, mengirimnya ke dalam spiral Layar Biru Kematian (BSOD) yang ditakuti. “Kepercayaan yang kami bangun selama bertahun-tahun hilang dalam beberapa jam, dan itu pukulan telak,” tulis Shawn Henry, chief security officer CrowdStrike, di LinkedIn pada awal Senin. “Namun ini kecil dibandingkan dengan rasa sakit yang kami sebabkan pada pelanggan kami dan mitra kami. Kami mengecewakan orang-orang yang kami janjikan untuk melindungi.”

MEMBACA Aplikasi kencan gratis terbaik: Kami menemukan 8 yang benar-benar berfungsi pada tahun 2024

Gangguan platform cloud dan masalah perangkat lunak lainnya—termasuk serangan siber jahat—telah menyebabkan gangguan IT besar dan global sebelumnya. Namun, insiden minggu lalu istimewa karena dua alasan. Pertama, itu berasal dari kesalahan dalam perangkat lunak yang dimaksudkan untuk membantu dan mempertahankan jaringan, bukan merusaknya. Dan kedua, menyelesaikan masalah tersebut memerlukan akses langsung ke setiap mesin yang terpengaruh; seseorang harus secara manual boot setiap komputer ke Mode Aman Windows dan menerapkan perbaikan.

IT seringkali adalah pekerjaan yang tidak glamor dan tidak terima kasih, tetapi bencana CrowdStrike telah menjadi ujian tingkat berikutnya. Beberapa profesional IT harus berkoordinasi dengan karyawan jarak jauh atau beberapa lokasi lintas batas, membimbing mereka melalui reset manual perangkat. Seorang administrator sistem junior berbasis Indonesia untuk merek fashion harus mencari tahu bagaimana mengatasi rintangan bahasa untuk melakukannya. “Itu menakutkan,” katanya.

“Kami tidak diperhatikan kecuali jika ada yang salah terjadi,” kata seorang administrator sistem di sebuah organisasi layanan kesehatan di Maryland kepada WIRED.

Orang tersebut terbangun sebentar sebelum pukul 1:00 pagi EDT. Layar di situs fisik organisasi itu berubah biru dan tidak responsif. Tim mereka menghabiskan beberapa jam pagi membawa server kembali online, dan kemudian harus berangkat untuk memperbaiki lebih dari 5.000 perangkat lainnya dalam perusahaan. Gangguan tersebut memblokir panggilan telepon ke rumah sakit dan merusak sistem yang mendistribusikan obat—semuanya harus ditulis tangan dan diantar ke apotek dengan kaki.