當前位置: 華文世界 > 科技

網易雲音樂、WPS、釘釘接連「崩潰」,平台災備建設有多重要!

2024-08-24科技
就在「網易雲音樂崩了」話題登上熱搜榜,並引發網友廣泛討論時,WPS、釘釘文件也相繼出現套用「崩潰」「宕機」的情況。這幾天,平台套用「崩潰」連番上演,好在短時間內恢復正常使用,公開致歉之余給使用者一定「會員補償」。然而,恢復正常和致歉補償之後,是否還會再次出現「崩潰」「宕機」?這是我們需要深刻反思的。
「崩潰」發生後,網易雲音樂官方微博釋出的公告。
「宕機」和「明天」哪個先來?
8月19日下午,多位網友發帖表示,網易雲音樂網頁端出現「502 Bad Gateway」報錯,App無法使用。直到兩小時後恢復正常,對此網易雲音樂官方稱是因為「基礎設施故障」。
8月21日上午,網友反映金山文件也出現了無法使用的狀況,WPS共享文件無法開啟。WPS官方發文回應,經工程師緊急修復,WPS服務已恢復。
無獨有偶,當天下午部份網友稱釘釘文件也出現了使用異常。釘釘官方的回應是:「使用流量突增導致釘釘文件出現部份使用者存取異常」。
誰能想到,App的崩潰竟成了一種「上熱搜」、「拼曝光」的「新姿勢」,有網友調侃:「明天和‘宕機’不知道哪個先來臨」。這也從側面體現了互聯網套用融入人們衣食住行,網民數位生活也對其深度依賴。
「近些年,大型App崩潰事件時有發生,包括阿裏、騰訊、百度、滴滴、抖音、B站等各大平台均發生過。」賽迪顧問網路與數據安全研究中心總經理劉娟表示,類似大型平台一旦出現故障,會導致全線系統崩潰,並且修復工作要涉及多個環節和系統的協調。
在安全419創始人張毅看來,從網易雲音樂這起網路安全事件來看,它使得數據保護的現有困境與威脅再次顯現,類似故障在技術驅動的線上服務平台中已是普遍現象,任何基礎設施故障造成的服務中斷都會影響使用者體驗。
此外,在關鍵基礎設施層面,近些年也時常發生軟體故障導致「崩潰」。全球通訊與IT行業研究機構Omdia首席分析師楊光介紹,不久前,網路安全企業Crowd Strike更新,就引發了全球Windows大面積藍屏「宕機」,導致多國航空、鐵路、醫療、金融系統陷入混亂。這些已然發生或正在遭遇的崩潰,都在為網路安全添上警示的「註腳」。
WPS官方微博的回應
程式碼背後更多是「人的問題」
梳理過往大型App崩潰事件的原因可以發現,互聯網業務系統每個環節都可能存在因裝置執行狀態、軟體程式碼、人員處理機制等原因造成的系統或App問題。
「大部份都是底層的硬體、軟體系統等基礎設施發生故障。」劉娟舉例,比如,機房或伺服器出現了故障;系統更新升級過程中出現了編程、邏輯錯誤或未處理的異常情況;系統總體處理能力不足導致CPU、記憶體、磁盤空間等資源耗盡引發崩潰等。
因此,在她看來,對於類似大型平台,保障基礎設施的穩定性至關重要。這就涉及到內部軟硬體基礎設施建設、日常運維規範性,以及網路防護和應急處理能力相關的問題。
楊光也認為,近些年軟體的頻繁崩潰,與「現在的系統越來越復雜」密切相關。「移動端軟體頻繁出現崩潰,或許存在各種各樣的具體原因,但一定有些共性問題,即沒有做好內部的品質把控,內部流程存在一定問題。」
「對於互聯網企業而言,這些事情的出現,歸根結底主要是人的問題。如果企業可以做好流程把控,為工程師營造良好的企業氛圍,做好發展與安全的關系,則有望很大程度上避免類似事情的發生。」楊光說。
張毅還提到,除了服務中斷,背後的伺服器遷移策略和長期穩定性問題更引發了行業思考,也警醒更多平台在技術維護和應急預案上都需要做足準備,不斷最佳化技術架構,提升運維管理能力,以減少服務中斷的風險,並確保使用者體驗的連續性和穩定性。
7月19日,在墨西哥首都墨西哥城的貝尼托·華雷斯國際機場,許多航班被延誤或取消,大量旅客在機場等待。新華社發(法蘭西斯科·卡涅多攝)
災備服務應該成為重要標配
「系統宕機」事件一再發生警示我們——網路安全穩定不容有失。如何補齊安全短板,成了一道擺在我們面前的難題。
「在基礎設施建設方面,互聯網企業要對自己的服務能力提前規劃,透過設計保證軟硬體裝置的高可用性,並且加強系統的穩定性投入,從而保障系統服務的連續性。」劉娟建議,互聯網企業更應該全面地考慮這類產品的安全建設,不但要滿足合規和法律風險,而且要從實際業務出發,考慮到數據安全、業務安全、基礎安全、人員安全等各層面,加強多層次全場景的網路安全建設。
釘釘官方微博的回應
她還提到,要盡可能地減少敏感數據泄露、業務中斷、系統穩定性和可用性等方面的安全事件發生,並且要把安全營運作為常態化、實戰化的工作,提升監測預警及應急處置能力,以快速響應、控制、恢復突發的網路安全事件,確保業務連續性和數據安全。
張毅建議,從安全合規和現實威脅出發,要讓災備服務成為企業標準配置,確保業務連續性並保障在面臨不可控制風險時關鍵數據的恢復能力。「災備建設作為一項關鍵措施,將有效降低安全事件對企業營運的影響,為數據安全構築起最後一道防線。」
從最近幾次「崩潰」「宕機」事件來看,相關企業均對使用者進行了短期的會員補償,但很顯然,這並非「長久之計」。
「對於使用者來講,相關賠償是很有必要的,但不能只停留在‘發生故障後道歉賠償,之後繼續發生故障’」的迴圈之中。」楊光表示,涉及國計民生的大型軟體應平衡好發展與安全,既要防字當頭,進一步落實主體責任,也要向技術借力,全面保障服務的穩定性、安全性。除此之外,行業機構也應該積極行動,推動行業健康發展。(記者 李政葳 雷渺鑫 李飛 實習生 劉鑫坤)
來源:光明網