當前位置: 華文世界 > 科技

「微軟藍屏」暴露了哪些安全風險隱患?

2024-07-22科技
這個周末,全球IT行業「很忙」。
由於網絡安全公司CrowdStrike技術更新中的「bug」,導致「微軟藍屏」並引發了全球宕機事故,多地基礎設施、服務業遭到嚴重影響——數千航班被取消、部份金融交易被中斷、多個城市醫療服務延遲、特斯拉等大型企業生產線停工……
或許是因為萬物互聯時代「牽一發而動全身」,抑或是微軟擁有龐大的客戶群體,業界將此事形容為「史上最大規模IT宕機」,甚至堪稱「千年蟲事件」的加強版。為什麽CrowdStrike能憑「一己之力」造成如此大規模影響?此事暴露了哪些安全風險隱患?給互聯網行業發展帶來哪些啟示?
「可與WannaCry蠕蟲事件相提並論」
從台北時間2024年7月19日(周五)下午2點多開始,全球大量Windows使用者出現電腦崩潰、BSoD、無法重新開機等情況。事發後,網絡安全公司CrowdStrike稱,收到大量關於Windows電腦出現藍屏報告,公司工程部已確定該問題與「內容部署」有關。
7月21日淩晨,CrowdStrike就全球IT故障釋出最新聲明稱,已了解問題是如何發生的,正在進行徹底的根源分析,以確定邏輯缺陷是如何出現的。CrowdStrike的行政總裁喬治·庫爾茨也在社交媒體上表示,此事並非安全事件或網絡攻擊。
據央視新聞報道,該事件已致美國超2000架次航班停飛。美國聯合包裹運送服務公司和聯邦快遞也表示,盡管其航空公司在正常營運,但由於電腦系統故障,快遞仍有可能會出現延誤。
此外,倫敦等地幾家主要石油、天然氣交易部門因網絡故障難以執行交易;澳洲的國民銀行、電信公司Telstra等都出現了無法登入或交易情況;特斯拉、星巴克、埃克森美孚等企業均表示受到影響。
據了解,CrowdStrike公司成立於2011年,是全球知名的下一代終端安全廠商。在世界500強企業中,有271家是CrowdStrike的客戶,包括微軟、亞馬遜等,以及美國不少政府機構都使用其軟件。此事也給CrowdStrike的股價帶來了重創,當地時間7月19日,其美股收跌11%,市值一夜蒸發近百億美元,創下2022年以來最差單日表現。
「此事發生時,亞太地區是白天,歐美地區是夜晚,最初社交媒體上的反饋主要是日本、澳洲等地,但後面大批歐美使用者也出現了服務中斷反饋,很多受影響的企業不得不‘提前放假’。」奇安信安全專家汪列軍說。
「從給全球帶來的影響看,這次可以‘直追’2017年的‘WannaCry’勒索蠕蟲事件,也暴露出了全球安全領域存在因軟件更新機制不規範,導致業務停滯等系統性風險。」安恒資訊研究院院長王欣這樣說。
汪列軍也認為,本次IT系統中斷事件的影響,一定會被記入「史冊」,可以與「WannaCry」勒索蠕蟲事件「相提並論」。
本次安全事故對中國影響不大
「技術越進步,社會越發展,可能衍生的風險越大。‘一行程式碼’導致的重大損失事件歷史上時有發生。」數世咨詢創始人、中國網絡空間安全協會專家李少鵬表示,在數碼化轉型過程中,互聯網普及率越來越高,伴生安全相關事件的機率也會隨之增長。
事實上,藍屏事件在微軟曾多次出現:在1998年釋出Windows 98測試版時,就發生過藍屏事件;後續隨著Windows XP系統釋出,藍屏情況更加頻繁;2015年Windows 10釋出之初,部份使用者也有報告過藍屏情況。相比之下,以往情況更加「局部」「小範圍」,且產生的影響也不能和本次同日而語。
雖然這兩天「藍屏」登上國內社交媒體熱搜榜,並成為全網熱議的話題。但從目前情況來看,中國所受的影響並不大。
汪列軍透露,從奇安信的應急響應情況及數據來看,中國CrowdStrike軟件裝機量在十萬級到百萬級之間,使用者主要集中在北京、上海、廣州、深圳等一線城市。受影響的主要是外企或外企在中國的分支機構,對於中國的政府部門、央國企以及大部份的大型民企影響不大。
「CrowdStrike的EDR/XDR工具能力很不錯,但其在中國沒有可以給客戶交付服務的能力,因此很難在中國發展客戶。」亞信安全首席研發官吳湘寧解釋說,中國國內的軟件環境與國外大不相同,作業系統方面有很多是國產化系統。此外,在套用軟件層面,類似WPS、企業微信、釘釘等企業推出的軟件也與國外不同,CrowdStrike等海外安全產品對中國企業套用沒有很深入理解,很難給中國客戶提供有效解決方案。
7月19日,在墨西哥首都墨西哥城的貝尼托·華雷斯國際機場,許多航班被延誤或取消,大量旅客在機場等待。新華社發(法蘭西斯科·卡涅多攝)
核心驅動「惹禍」導致系統性風險
事發後的第二天,汪列軍所在研究團隊很快推出了一份詳實的【CrowdStrike導致全球性IT基礎設施中斷事件分析報告】。文中指出,導致本次事故的「禍首」是CrowdStrike公司的核心產品——Falcon平台核心元件驅動程式部份功能。
Falcon平台是完全基於雲端部署的SaaS模型。平台透過一個輕量級的代理架構,實作快速且可延伸的部署,並提供高級別的保護和效能。此外,Falcon平台還整合了多種功能,比如,檔完整性監控、雲安全、身份保護等。
「從Falcon軟件的安裝量初步估計,已導致難以計數的Windows系統不可用,電腦只要啟動就會藍屏,且沒有自動化措施可以執行批次集中修復,只能一台台的手工操作解決問題。所以,恢復過程會很消耗時間,預計完全恢復需要以周來計。」汪列軍說。
吳湘寧也提到,「藍屏」恢復過程中,面臨著不少挑戰——受攻擊器材需要逐一手動修復,不但效率低下,而且有些場景恢復需要特殊金鑰,這個過程更加復雜;此外,一些受影響的器材直接關聯了關鍵性行業和基礎設施,比如,政府部門、銀行、醫療機構等,後續衍生、連帶了不少問題。
以上汪列軍、吳湘寧的分析,一定程度上也解釋了這個「忙碌周末」的緣故。在突如其來的危機中,CrowdStrike內核驅動問題暴露了在安全解決方案選擇上的潛在風險。
「在網絡安全領域,內核驅動方案一旦出現問題,後果可能是災難性的!我們必須選擇經過嚴格測試、擁有高可靠性的安全解決方案。」 全國資訊保安標準化技術委員會專家、青藤雲安全COO程度介紹,此次事件主要是CrowdStrike的驅動程式和Windows作業系統出現了沖突導致的問題,背後原因可能是因為不相容、驅動程式之間有沖突、驅動程式可能觸發內核「bug」等。
除了關註驅動的「bug」,汪列軍認為,還要重視產品的測試釋出流程。此事件在釋出測試流程上也存在很大問題,其一次性全部更新到使用者器材上,就直接導致了「藍屏」。
7月19日,在加拿大多倫多比利·畢曉普機場,一名波特航空公司的工作人員用手機顯示因技術故障取消航班的網絡通知。新華社發(鄒崢攝)
「安全!安全!安全!必須是重中之重」
看似是因為技術故障引發的一場「全球混亂」,實際卻突顯了現代社會對於資訊科技的依賴性及其相應的脆弱性。「因此,在作業系統層面,應該設計得更加健壯,以便可以更好應對此類問題。」王欣說。
「一定要明確,安全是重中之重!網絡安全是每個組織不可或缺的一部份,尤其數碼時代,安全不僅僅是一個技術問題,更是一個業務問題。」 程度認為,選擇正確的技術解決方案,是確保安全的第一步。
比如,在安全產品技術路線選擇上,通常軟件開發包括內核態和使用者態,前者擁有更高的系統許可權,可以直接存取硬件,但劣勢在於錯誤的驅動可能危及整個系統的穩定性、安全性。從目前情況來看,CrowdStrike應該是在內核態下導致的問題,如果采用非內核態的形式,出現這類問題的概率會低很多。
「即使是非常成熟的技術平台,也可能遭遇意外故障。由此可見,業務穩定和網絡安全既是技術問題,更是管理、戰略問題,需全面綜合考慮各種因素。」汪列軍提到了行業裏那句老話——「能力越大,責任也越大」。
對於安全廠商而言,涉及系統穩定性的軟件廠商需要對產品有更嚴格的質素管理;還要做好升級策略,在升級過程中要控制影響範圍,俗稱「爆炸半徑」,掌控好升級策略,確保「灰度升級」,控制放量節奏。
對於安全產品使用者而言,要選擇有實力、有信用的安全廠商;在部署終端保安軟件過程中,要對資產做好分類、分級,對於關鍵資產設定單獨的管理單元,並設定「灰度」或延遲更新的策略。
李少鵬表示,我們要一起做好一件事——「風險認知前移」。也就是說,不能等到事情發生後再亡羊補牢,應該對數碼風險有一定的認知,做到未雨綢繆,從而當風險變成現實威脅時,才能更好地響應。
在這個周末裏,有人忙著修復電腦,有人在推進追責,有人在分析反思。隨著這次技術問題得到逐步解決,藍屏等情況也在慢慢緩解。一個小小「bug」,竟能讓這麽多全球業務停擺,深刻說明了數碼時代的脆弱與風險,也再次提醒了我們安全的重要性。
撰文:李政葳 李飛 曾震宇
編輯/排版:李汶鍵
光明網出品
來源:世界互聯網大會