Fastly全網癱瘓事件:一個bug讓全球抓狂 網絡基建脆弱暴露

設計圖片:Fastly標誌、網絡錯誤503字樣與折斷的網絡纜線
設計圖片:Fastly標誌、網絡錯誤503字樣與折斷的網絡纜線

美國互聯網雲端服務供應商Fastly發生故障,引發全球多家官民網站癱瘓近1個小時,讓這個對普羅網民而言相當陌生的網絡企業品牌突然走進公眾視線。

Fastly為世界各地網站提供內容分發網絡(content delivery network, CDN)服務,以加快用戶瀏覽速度和體驗。事故發生期間,世界廣泛地區網民無法登入BBC《紐約時報 》、《衛報》等多家國際媒體網站,亞馬遜(Amazon)等網絡商家,以至於英國政府網站。

Fastly在美國太平洋時間(西岸時間)星期二(6月8日)晚間公布事故調查結果,稱肇事原因是5月份一次系統更新中有程序錯誤(bug)未被發現,並非遭受黑客攻擊。該公司為是次癱瘓致歉。

Fastly是全球為數不多的大型CDN供應商之一。信息科技與網絡安全專家紛紛指出,這次事件凸顯世界互聯網基礎建設脆弱的一面。

這場網絡癱瘓是怎麼發生的?

事件在格林尼治標凖時間星期二10:00發生,網民嘗試登入多個網站時出現錯誤信息「Error 503 Service Unavailable」(錯誤503:服務不可用)。

英國政府網站顯示「錯誤503」畫面(8/6/2021)
英國政府網站顯示「錯誤503」畫面(8/6/2021)

受影響網站眾多,包括:

政府

  • 英國政府

媒體

  • 英國廣播公司(BBC)

  • 英國《金融時報》

  • 英國《衛報》

  • 美國《紐約時報》

  • 美國有線電視新聞網(CNN)

  • 卡塔爾半島媒體網絡(Al Jazeera Media Network)

網絡金融

  • PayPal

影音串流平台

  • HBO Max

  • Vimeo

  • Twitch

  • Hulu

網絡論壇、社交平台

  • Reddit

  • Twitter

網店

  • 美國亞馬遜(Amazon)

  • 加拿大Shopify

總部設在舊金山的Fastly在格林尼治標凖時間09:58宣佈正調查一起事故,至10:44宣佈已找出事故原因,並正安裝補丁包。

格林尼治標凖時間10:57,Fastly宣佈完成修正,但客戶可能要應付服務恢復之後湧入的瀏覽量。

Fastly最初透過Twitter稱,該公司發現一筆系統設定引發旗下全球PoP(points of presence,網絡接入點)發生故障,並已停用該筆設定。PoP讓網絡內容能從靠近用戶的服務器(servers)送到用戶面前。

https://twitter.com/fastly/status/1402221348659814411

舊金山時間星期二晚間,Fastly工程與基建高級副董事長尼克·洛克威爾(Nick Rockwell)發表博客解釋說,整起事件源於5月12日一次軟體更新,當中一筆程序錯誤會在用戶合法更改某設定時發作。

星期二的事故導致該公司85%網絡連線報告錯誤。洛克威爾稱,在49分鐘內,搶修團隊恢復了95%網絡運轉。

「這是一起廣泛而嚴重的網絡中斷,就此影響到我們客戶與所有依賴這些客戶的人,我們深表抱歉。」

網帖標籤「#InternetOutage」(網絡中斷)迅速在仍能運作的社交媒體平台上成為熱門話題。搜影響網站數目不斷增加,讓一些網民驚訝不已。

https://twitter.com/shubhamtech05/status/1402228176483352578

媒體網站可謂這次斷網事件的重災區,大家想方設法維持新聞發表。其中,美國科技新聞網站The Verge利用谷歌文件(Google Docs)發稿,卻忘記設定編輯限制,結果演變成連串「亂入」編輯,並在Twitter上引來圍觀。

https://twitter.com/danhett/status/1402213743946256389

美國《連線》雜誌(WIRED)執行編輯布萊恩·巴雷特(Brian Barrett)接受BBC電視世界新聞台(BBC World News)連線採訪時則讚揚Fastly能在短短一小時內修復如此重大的癱瘓事故。一些網民似乎同意這說法。

https://twitter.com/magnologan/status/1402222049377017859

Fastly是什麼?CDN又是什麼?

Fastly成立於2011年,為世界各大網站提供CDN服務,以加快網民瀏覽速度和體驗。業內有規模的競爭對手不多,計有阿卡邁科技(Akamai Technologies)、Cloudera和亞馬遜網絡服務(Amazon Web Services, AWS)。

大數據分析公司Kentik的互聯網分析總監道格·馬多理(Doug Madory)向BBC指出,CDN服務是互聯網生態系統的重要組成部分,普羅網民其實每天都在跟Fastly打交道。「通常你不會知道它任何事情,因為它在正常運行。」

CDN透過把網站內容複製到遍布全球的服務器網絡,讓各大網站能更流暢地下載到用戶面前。在網站充滿高像度照片、視頻等內容的今天尤其重要。

英國網絡安全企業Cygenta聯席總裁傑西卡·巴克博士(Dr Jessica Barker)在BBC第五廣播電台(BBC Radio 5Live)節目上形容,CDN的工作是減少網絡摩擦。

巴克博士這樣形容CDN:「在現實世界中,它就像一家圖書館。我可以到社區裏的圖書館借某本書,而不用費很大的勁跑到出版社去找。可要是圖書館關門了,我就借不到那本書了。」

CDN可幫助網站應付瀏覽量突然湧入,同時也就能協助網站抵禦透過製造龐大瀏覽量來試圖癱瘓網站的拒絶服務攻擊(DoS attack)。Fastly採用了一項名為「邊緣雲端」(edge cloud)的技術來做到這一點,大意是把原本集中在網絡中心進行的數據運算分工到地方服務器同時運算,減輕整體網絡負載。

這次事故造成多少損失?

我們目前仍不知道這次癱瘓對全球造成多大的財政損失,但有人估算,網站癱瘓一個小時,可讓一家公司賠掉25萬美元;路透社引述跨國媒體公關顧問凱度(Kantar)稱,據粗略推算,每癱瘓一個小時,全球盈利網站就會損失合共2900萬美元的廣告收益。

諾丁漢特倫特大學旗下諾丁漢法學院(Nottingham Law School, Nottingham Trent University)的麗貝卡·帕裏教授(Prof Rebecca Parry)對BBC說:「服務丟失的賠償責任也許會由付費雲端服務合同承擔,但通常這種合同不會涵蓋一切損失。」

Fastly股份2019年在紐約上市,2020年10月曾創每股136.5美元高位,此後持續回落。星期二的斷網事件發生之後,一些網民揚言要拋售手中的Fastly證券。

https://twitter.com/michtrvlz/status/1402270887815036951

Fastly股份星期二盤前交易時段曾跌價4%,但開盤後不跌反升,結果收盤比上日漲7.7%,報50.7美元,相當於市值58.7億美元。

英國牛津大學賽德商學院(Saïd Business School, University of Oxford)財務學副教授馬丁·施馬爾茨博士(Dr Martin Schmalz)形容,網民驚訝地發現如此龐大的網絡權力落在Fastly這一家企業手中,投資者則驚喜地發現Fastly手握如此龐大的網絡權力。

https://twitter.com/martincschmalz/status/1402270657916936194

Fastly當機事件能避免嗎?

美國戴爾科技(Dell Technologies)高級董事斯蒂芬·吉爾德代爾(Stephen Gilderdale)對BBC說,Fastly這次事故偶有發生,但只要雲端服務商有配置足夠緩衝,服務通常會很快正常。

吉爾德代爾說:「大多數案例中,服務只會受短暫影響,數據也很容易恢復,遠不值得時刻憂慮。這能展示網絡的可靠程度,有問題能在瞬間恢復。」

《連線》雜誌執行編輯布萊恩·巴雷特對BBC指出,別的CDN提供商發生也曾遭遇同類事故。此次事件反映當前全球互聯網缺乏足夠緩衝安全區。

英國牛津大學互聯網研究所(Oxford Internet Institute)研究員科琳·凱斯—斯佩思(Corinne Cath-Speth)在Twitter上指出,幾乎全球所有網站都採用CDN與其他雲端服務,這次Fastly服務發生問題,敲響了互聯網雲端服務過度中央化的警鐘。

路透社引述網絡安全企業Idax Software創辦人,英國約克大學客席教授馬克·羅德伯特(Prof Mark Rodbert)說:「短短10分鐘內,一個故障就能讓全世界一片混亂,實在不簡單。這令我們意識到網絡技術到雲端改變了企業需要保護的部分和環節。」

羅德伯特教授說,企業必須做好隔火牆建設,確保整個互聯網不會因為一家公司甚至是一位僱員出現問題,而徹底癱瘓。