互联网“大厂”频现“宕机门”，降本增效或是“罪魁祸首”

　　近日，“阿里云崩了”“滴滴崩了”“腾讯视频崩了”相继冲上热搜，对用户购物、企业运营、公共服务、出行、娱乐等均造成不同程度影响，平台“闪崩”导致我们的生活“断片儿”，也不禁让人给互联网应用的稳定性、安全性打上了一个“问号”。

　　 *** 安全是数字中国建设的重要基础，近年来，我国 *** 安全制度体系不断完善，《中华人民共和国 *** 安全法》《中华人民共和国数据安全法》等法律相继颁布，《关键信息基础设施安全保护条例》《 *** 安全审查办法》等规范性文件陆续出台，依“法”保障 *** 安全的“四梁八柱”逐渐成型。

　　2023年，《数字中国建设整体布局规划》明确提出，“筑牢可信可控的数字安全屏障”。在深度依赖移动互联网APP的当下，互联网企业必须把安全摆在首位，避免出现“寸步难行”的尴尬局面。纵观近年来的宕机事件，其原因或是水灾、火灾等天灾，或是软硬件错误等系统故障，亦或是员工误操作、删库跑路、断电等人为灾难。而从技术上来说，宕机真的不可避免吗？

　　近几年，随着云计算的渗透、数据量的迅猛增长，越来越多的 *** 机构、企业等将自己的系统、数据搬上“云”，催生了越来越多的“国民级应用”，但传统的灾备架构已很难满足业务快速恢复的需要。其实，理论上任何技术或者服务出现中断都是不可避免的，仅是概率大小的问题。无论是传统的环境，还是云环境，互联网的服务数据终究要流向数据中心，要汇集到几个中心节点上，这种物理属性决定了数据中心无法规避外界因素，也就无法做到永不宕机，世界一流的科技巨头、云服务公司概莫能外。

　　虽然所有的云服务都不是绝对安全的，没有办法百分之百保证系统的稳定运行。但大部分情况下，云环境的可用性和可靠性都比传统环境高，这主要是因为云平台的运维更加专业。而对于近期互联网企业的频繁宕机，有人质疑是互联网厂商过度追求“降本增效”、忽视运维导致的。的确，从表面上看，宕机是由于技术故障和不可抗力造成的，但究其根本还是没有提前做好容灾应急预案。

　　针对不同种类的故障，灾备行业有三种不同等级的防御方式：数据级、应用级、业务级。现在业内主流的容灾架构还是灾备、容灾，属于数据级的容灾方案。专业人士建议，在顶层设计上要留足安全冗余，关键信息数据和技术平台的备份、通信 *** 容灾机制的设计、数字技术与传统基础设施的融合等方面都需要“从坏处准备，努力争取更好的结果”。

　　近些年，互联网厂商“沉迷”于降本增效、削减预算、裁员等；同时，受“投入产出比”影响，企业的安全冗余和灾备能力也不可能无限进行备份。阿里云宕机后发布的回应中也承认，事故现场处理不及时导致触发喷淋系统、故障消息发布不够及时，是放大该宕机事件影响的重要原因。

　　也正是这个回应，让部分业内人士发现了问题要害所在：精简人员、裁掉高薪的资深程序员而过于依赖年轻人，没有双机热备方案、备用机房和多节点集群等应急和防范措施，都是加剧宕机影响的原因之一，而这也是降本增效的“后遗症”。

　　总而言之，滴滴、阿里、腾讯系应用的宕机是否与降本增效直接相关，是一个复杂的问题。不管有没有直接关系，相信频繁的宕机已经让“大厂”意识到改进基础设施、增加容灾备灾预案和培养高端技术人才的重要性。此外，互联网厂商诸多服务涉及公共行业，应该时刻保持未雨绸缪、防微杜渐的意识，才能在互联网这个危机四伏的“江湖”里，立于不败之地。