CrowdStrike 將全球大當機怪罪到測試軟體上

但即便如此,CrowdStrike 依然缺乏許多應有的把關措施。

CrowdStrike

CrowdStrike 在一份事故後檢討報告中,將導致全球約 850 萬台 Windows 電腦當機的罪魁禍首,定在了其測試軟體上。該公司稱,由於內容驗證器(Content Validator)程式中的錯誤,讓兩個更新中的其中一個包含有錯誤資料的更新,通過了驗證。該公司並承諾,將採取一系列新措施以避免問題重演。

具體來說,為了防止 DDoS 和其他類型的攻擊,CrowdStrike 開發了一個名為「Falcon Sensor」的工具。為了能有效偵測威脅,它在系統內核(kernel)內運作了一個名為「Sensor Content」的部件,並且以一種名為「Template Type」的模板來定義各種威脅與處置方式。這些模版讓 CrowdStrike 能快速更新電腦的防護,提高 Falcon Sensor 發現新威脅的效率。

然而在 7 月 19 日發布了兩個模板更新中,其中一個(只有約 40 KB 大)雖然包含了「有問題的數據」,但依然通過了驗證。當 Falcon Sensor 接收到這個模板,並加載到 Content 中時,導致了記憶體讀取超出界限,並觸發了異常。由於 Windows 作業系統無法處理此異常狀況,而導致了藍屏當機。

為了防止事件重演,CrowdStrike 承諾採取多項措施。首先是更全面地測試更新模板,包括本地開發人員測試、內容更新和回滾測試、壓力測試、穩定性測試等。它還增加了驗證檢查和增強錯誤處理。此外,該公司未來也將對新的模板採用分階段部署的策略,以避免全球同步中招的事態重演。它還將為客戶提供更多控制此類更新的權限,並為更新提供說明內容。

不過真正讓人納悶的是,為什麼 CrowdStrike 在這之前竟然都沒有採取這些基本措施。此次 Windows 當機的範圍之廣泛,只要 CrowdStrike 曾在任何一台 Windows 電腦上試過安裝這個更新,應該就會立即發現它會導致當機,與其怪到測試軟體上,不如說 CrowdStrike 根本就沒有好好的進行測試。未能分階段、分區域部署也是個很讓人難以理解的決定,特別是 CrowdStrike 並非是面臨著嚴重的威脅,需要盡快將更新檔案散佈出去。

無論如何,這次大規模的當機災難影響了全球多家大型企業,包括航空公司、廣播公司、倫敦證券交易所等。這個錯誤的更新會使 Windows 電腦進入重開機循環,需要 IT 人員直接操作機器才能恢復。雖然電腦當機的直接問題大多已經解決,但仍許多像達美航空這樣的公司,依然在為收拾留下的爛攤子而焦頭爛額著

相關文章: