当前位置: 华文世界 > 科技

网易云音乐、WPS、钉钉接连「崩溃」,平台灾备建设有多重要!

2024-08-24科技
就在「网易云音乐崩了」话题登上热搜榜,并引发网友广泛讨论时,WPS、钉钉文档也相继出现应用「崩溃」「宕机」的情况。这几天,平台应用「崩溃」连番上演,好在短时间内恢复正常使用,公开致歉之余给用户一定「会员补偿」。然而,恢复正常和致歉补偿之后,是否还会再次出现「崩溃」「宕机」?这是我们需要深刻反思的。
「崩溃」发生后,网易云音乐官方微博发布的公告。
「宕机」和「明天」哪个先来?
8月19日下午,多位网友发帖表示,网易云音乐网页端出现「502 Bad Gateway」报错,App无法使用。直到两小时后恢复正常,对此网易云音乐官方称是因为「基础设施故障」。
8月21日上午,网友反映金山文档也出现了无法使用的状况,WPS共享文档无法打开。WPS官方发文回应,经工程师紧急修复,WPS服务已恢复。
无独有偶,当天下午部分网友称钉钉文档也出现了使用异常。钉钉官方的回应是:「使用流量突增导致钉钉文档出现部分用户访问异常」。
谁能想到,App的崩溃竟成了一种「上热搜」、「拼曝光」的「新姿势」,有网友调侃:「明天和‘宕机’不知道哪个先来临」。这也从侧面体现了互联网应用融入人们衣食住行,网民数字生活也对其深度依赖。
「近些年,大型App崩溃事件时有发生,包括阿里、腾讯、百度、滴滴、抖音、B站等各大平台均发生过。」赛迪顾问网络与数据安全研究中心总经理刘娟表示,类似大型平台一旦出现故障,会导致全线系统崩溃,并且修复工作要涉及多个环节和系统的协调。
在安全419创始人张毅看来,从网易云音乐这起网络安全事件来看,它使得数据保护的现有困境与威胁再次显现,类似故障在技术驱动的在线服务平台中已是普遍现象,任何基础设施故障造成的服务中断都会影响用户体验。
此外,在关键基础设施层面,近些年也时常发生软件故障导致「崩溃」。全球通信与IT行业研究机构Omdia首席分析师杨光介绍,不久前,网络安全企业Crowd Strike更新,就引发了全球Windows大面积蓝屏「宕机」,导致多国航空、铁路、医疗、金融系统陷入混乱。这些已然发生或正在遭遇的崩溃,都在为网络安全添上警示的「注脚」。
WPS官方微博的回应
代码背后更多是「人的问题」
梳理过往大型App崩溃事件的原因可以发现,互联网业务系统每个环节都可能存在因设备运行状态、软件代码、人员处理机制等原因造成的系统或App问题。
「大部分都是底层的硬件、软件系统等基础设施发生故障。」刘娟举例,比如,机房或服务器出现了故障;系统更新升级过程中出现了编程、逻辑错误或未处理的异常情况;系统总体处理能力不足导致CPU、内存、磁盘空间等资源耗尽引发崩溃等。
因此,在她看来,对于类似大型平台,保障基础设施的稳定性至关重要。这就涉及到内部软硬件基础设施建设、日常运维规范性,以及网络防护和应急处理能力相关的问题。
杨光也认为,近些年软件的频繁崩溃,与「现在的系统越来越复杂」密切相关。「移动端软件频繁出现崩溃,或许存在各种各样的具体原因,但一定有些共性问题,即没有做好内部的质量把控,内部流程存在一定问题。」
「对于互联网企业而言,这些事情的出现,归根结底主要是人的问题。如果企业可以做好流程把控,为工程师营造良好的企业氛围,做好发展与安全的关系,则有望很大程度上避免类似事情的发生。」杨光说。
张毅还提到,除了服务中断,背后的服务器迁移策略和长期稳定性问题更引发了行业思考,也警醒更多平台在技术维护和应急预案上都需要做足准备,不断优化技术架构,提升运维管理能力,以减少服务中断的风险,并确保用户体验的连续性和稳定性。
7月19日,在墨西哥首都墨西哥城的贝尼托·华雷斯国际机场,许多航班被延误或取消,大量旅客在机场等待。新华社发(弗朗西斯科·卡涅多摄)
灾备服务应该成为重要标配
「系统宕机」事件一再发生警示我们——网络安全稳定不容有失。如何补齐安全短板,成了一道摆在我们面前的难题。
「在基础设施建设方面,互联网企业要对自己的服务能力提前规划,通过设计保证软硬件设备的高可用性,并且加强系统的稳定性投入,从而保障系统服务的连续性。」刘娟建议,互联网企业更应该全面地考虑这类产品的安全建设,不但要满足合规和法律风险,而且要从实际业务出发,考虑到数据安全、业务安全、基础安全、人员安全等各层面,加强多层次全场景的网络安全建设。
钉钉官方微博的回应
她还提到,要尽可能地减少敏感数据泄露、业务中断、系统稳定性和可用性等方面的安全事件发生,并且要把安全运营作为常态化、实战化的工作,提升监测预警及应急处置能力,以快速响应、控制、恢复突发的网络安全事件,确保业务连续性和数据安全。
张毅建议,从安全合规和现实威胁出发,要让灾备服务成为企业标准配置,确保业务连续性并保障在面临不可控制风险时关键数据的恢复能力。「灾备建设作为一项关键措施,将有效降低安全事件对企业运营的影响,为数据安全构筑起最后一道防线。」
从最近几次「崩溃」「宕机」事件来看,相关企业均对用户进行了短期的会员补偿,但很显然,这并非「长久之计」。
「对于用户来讲,相关赔偿是很有必要的,但不能只停留在‘发生故障后道歉赔偿,之后继续发生故障’」的循环之中。」杨光表示,涉及国计民生的大型软件应平衡好发展与安全,既要防字当头,进一步落实主体责任,也要向技术借力,全面保障服务的稳定性、安全性。除此之外,行业机构也应该积极行动,推动行业健康发展。(记者 李政葳 雷渺鑫 李飞 实习生 刘鑫坤)
来源:光明网