當前位置: 華文世界 > 三農

「藍屏事件」為什麽沒有對中國民航業造成影響?

2024-07-23三農

【文/觀察者網專欄作者 張仲麟】

當地時間7月19日,全球無數打工人突然發現,他們的電腦螢幕要麽藍屏要麽連不上系統伺服器。而往常非常管用的「重新開機大法」也失去了效果,重新開機之後依然得面對那碩大的藍屏。

這次微軟藍屏導致的系統癱瘓遍布全球,但在北美尤其嚴重,對社會執行產生了嚴重影響:航班停飛、911熱線打不通、酒店無法辦理入住、醫院取消手術、商店無法營業,而這一切都源於一家鮮為人知的網路安全公司CrowdStrike——當然現在已經變成家喻戶曉了。

這次全球性的「藍屏事件」發生的原因說白了並不那麽讓人意外。作為全球網路安全與雲端運算端點保護領域頂尖公司之一,有大量公司和雲伺服器使用CrowdStrike公司的Falcon平台,並且執行在Windows平台上。

此次事件,就是由於CrowdStrike最新的一個軟體更新與Windows平台出現了嚴重的相容性問題,並由此導致出現了大面積的「藍白當機」,而且「無限迴圈」。如果僅僅局限於個人電腦上也就罷了,但問題更新同樣套用在雲伺服器上(比如微軟自家的Azure雲服務)並且同樣導致了嚴重問題,這使得「藍屏事件」對公共領域造成廣泛影響,而航空業又首當其沖。

「藍屏」中的美國航司

由於各個國家的航空公司所采用的資訊系統方案各不相同,使得在「藍屏事件」中受到的影響也各不相同:有些是自助值機系統無法使用只能櫃台辦理,有些是登機牌無法打印只能手寫,有些則是從值機到配載系統全部無法使用,徹底喪失運作能力。

航空公司的資訊系統涉及到微軟Azure雲服務以及基於Windows系統的終端是重災區,最要命的是那些在雲服務上執行的資訊系統伺服器。

那一天,人們終於想起了被藍屏所支配的恐懼,以及面對Windows系統無能為力的屈辱

由於身處美國具有「地利」,美國航空公司就成了本輪「藍屏事件」的重災區了,美國三大航(達美、美國、美聯航)一個不落全部遭殃,對所有航班發出地面停飛指令,FAA要求空中交通管制員告知飛行員,航空公司目前遇到了通訊問題。除此之外,捷藍航空、邊境航空、精神航空這些中小航空公司也受到嚴重影響,關鍵系統無法使用並導致航班大量取消。

可以看到由於系統崩潰,7月19日美國飛行的航班數量比起前一天明顯減少

作為本輪藍屏事件的主要受害者,達美、美國航、美聯航有大量航班被取消,而其中受影響最大的是美國客流量最大的機場——亞特蘭大機場。作為全美最大的樞紐機場也是達美航空的基地機場,在本輪「藍屏事件」中累計取消了五百多班航班,其中多為達美航空的航班。緊隨其後的是芝加哥奧黑爾機場取消了近200班、紐約拉瓜迪亞機場取消了三分之一航班。而美國之外歐洲機場的航班也受到了不小的影響,阿姆斯特丹機場進出港航班有40%延誤,柏林機場有三分之一航班取消。

有意思的是,這一輪大規模系統故障卻沒有對美西南航空與阿拉斯加航空造成影響,還包括UPS、FEDEX這兩個航空貨運,而其背後的原因又堪稱「黑色幽默」。

美西南航空目前使用的航班運控系統是基於1992年的Windows3.1系統執行的,而其機組調配體系則是基於電話呼叫。因此這一輪由於錯誤更新包導致的Windows系統與雲服務大規模系統宕機事件,對美西南航空來說真就是「系統過於落後,所以毫無影響」。

UPS和FEDEX也是差不多的情況,他們仍然在使用Windows95或者Windows3.1來執行其關鍵營運系統,因此得以躲過這一劫。

而其他沒有受到影響的美國航司多是一些地區性的支線航空公司,這些小航空公司的資訊與執行系統較為原始,用不起昂貴的雲服務,因此也逃過一劫得以正常執行。聯想到2022年聖誕節北美暴雪天氣帶來的大範圍延誤中,美西南由於系統過於落後導致遲遲無法恢復航班執行,本次事件也算是「風水輪流轉」,證明了「成熟系統」所具備的「高穩定性」優勢。

三十二年陳的Windows系統避免了美西南無法執行雅虎新聞

缺位的應急處置

在本輪更新導致大規模系統崩潰的「藍屏事件」中,最讓人大跌眼鏡的莫過於美國三大航在系統崩潰發生後,直截了當地打出了白旗,停飛所有航班。在我看來,這無疑是非常匪夷所思的,因為這些運控系統都是重要系統,不僅僅關系到航空公司自己的日常運控,也是國家關鍵交通系統的一部份。

此類航空運控系統,往往對其可靠性與強韌性都有著極高的要求,確保不會因為崩潰對航空運作造成嚴重影響。國際民用航空組織(ICAO)就在一系列檔中對航空運控系統的備份和冗余提出了具體的要求,以避免單一系統崩潰造成嚴重後果,包括:

要求定期備份關鍵營運數據。

必須在硬體和軟體上實作冗余,包括備用伺服器、儲存裝置等。

必須制定詳細的災難恢復計劃,涵蓋各種災難性場景。

關鍵系統(如空中管制系統)需要具備自動故障切換功能且執行數據同步,主系統一旦發生故障,可以立即切換到備用模式執行。

如果我們看本次「藍屏事件」的話,會發現那些美國航司並沒有(或者說沒做到)災難恢復計劃,也沒有實作關鍵系統故障後自動切換到備份。當然有一種可能是他們確實有備份,但是備份同樣遭遇了藍屏(例如同樣基於Windows系統執行且被錯誤更新影響),這就給人一種「為了避免雞蛋放在一個籃子裏,於是買了多個P2P理財防止暴雷」的感覺。

作為一個有著豐富現場經驗的人,我對本次美國同行們的表現也是頗為不解,因為航空公司對於此類情況必然會有應急預案,在系統降級或完全不可用的情況下確保最低限度的運作。以我在一線工作中的經歷而言,飛機的配載雖然現在都是透過資訊化系統進行,但每一個配載人員都保留著手工畫配載表的手藝活。一旦發生配載系統故障無法使用,就照著機號對應的機型翻出配載表的PDF文件,將配載表打印出來,然後手工配載手工計算,獲得飛機起飛數據。而這種手工操作是極為基礎的業務技能,年年練、月月練、周周練,就是為了確保需要切手動計算的關鍵時刻不會掉鏈子。

手工操作是這個行業的基本功

而其他相關環節及部門也一樣對應急演練有著近乎偏執的要求。作為與值機部門有工作交叉的部門,我們幾乎每個月都能接到來自值機的電話,要求建立一個虛擬航班以供他們進行應急演練。而值機應急演練的內容就是中航信系統(國內使用的民航營運系統)宕機的情況下,基於本地模式進行旅客值機和登機牌辦理,甚至在無法打印的情況下給旅客手寫登機牌讓旅客登機。

也因此,當看著美國同行因為值機系統、配載系統等諸多系統隨著「藍屏事件」掛掉,導致航班運作徹底癱瘓時,我就很不解:你們平時不練手工的麽?你們就沒有應急預案麽?你們應急預案不演練的麽?你們沒有備份系統麽?

為何中國沒有受到影響

這次影響全球的「藍屏事件」對中國幾乎沒有造成影響,中國民航運作完全正常,僅有一些外航航班(如美國航空、美聯航)受國外影響導致了延誤,其原因也並不復雜。

首先,對於終端電腦來說,是使用Windows系統且涉及到安裝了CrowdStrike公司的安全軟體,在更新了錯誤修補程式後,才會產生無限「藍屏重新開機」的問題,而國內航司電腦終端往往並不使用該公司的安全軟體。而且對於系統更新往往是比較謹慎的態度,沒事不會更新,使用的Windows版本也是更成熟穩定的老版本為主。

其次,國內航空公司大部份使用的都是中航信系統,其執行環境基於Linux,也沒有使用微軟的Azure雲服務或者亞馬遜的AWS。這一定程度上避免了中國民航關鍵基礎系統遭遇錯誤更新所導致的全面崩潰。

作為事關中國民航運作的重要系統,中航信所營運的電腦系統和網路屬於一種「關鍵基礎資訊系統」,被列入國務院監管的八大重點系統之一。除春秋航空等少數航空公司外,其他航空公司均使用中航信系統。中航信系統的安全性和穩定性也得到了國家的高度重視和嚴格監管,確保了系統的穩定性與可靠性。

當然這並不代表中航信系統不會出現問題,在2020年8月25日就曾發生過中航信離港系統使用異常,導致部份機場無法值機的問題。根據通報,在當天上午10點32分發生異常導致部份機場無法值機,在11點07分就全部恢復了正常。雖然造成了一定影響,但由於僅持續了半個小時,因此沒有造成較大影響,總體執行平穩。

雖說中航信系統幾十年不改的指令操作界面飽受詬病,但對關鍵基礎資訊系統來說,執行穩定是壓倒一切的。而基於完全自主的資訊系統與執行環境,也讓我們得以避免遭受「藍屏事件」的池魚之禍,避免如美國同行那樣鬧個大笑話。

透過這起事件,我們也更加意識到了,在關鍵資訊系統已經成為重要基礎設施的當下,實作完全的自主可控是極為重要的。而這不僅僅包括資訊系統,也包括作業系統。在網路安全形勢越發嚴峻的當下,其必要性已經無需質疑了,這不僅僅是技術層面的選擇,更是國家安全與產業發展的戰略需要。