数据中心安全与事故

昨天,也就是2016年11月24日,江西丰城电厂三期工程,有超过70人将生命永远留在了那里。

  当你有缘看见此文时,无论你在做什么,请默哀7s钟。

这并不是形式主义,也不是为了已经逝去的他们,而是为了已经渐趋麻木,失去底线的我们自己。

福哥经常容易犯迷惑,但是爷爷逝世那天的情景我还是记得很清楚,因为全程大多时候是跪着的,因为跪着疼痛,才记忆深刻。三十之后,我才明白,“礼”并不是为了别人,而是为了我们自己。为了加深记忆,为了对抗麻木,为了总结经验,为了更好的生活下去。

数据中心事故回忆录2015

2015年1月9日,由于一名焊工的吹管不小心引燃了旁边的建筑材料,原准备作为亚马逊网站未来数据中心的一幢大楼发生了火灾。

这场大火很快变成了维吉尼亚州阿什本一处地方的三级大火。几英里开外的地方也能见到滚滚浓烟。亚马逊发言人称:这场大火造成约10万美元的损害,不过补充说“没有影响亚马逊运营的风险”,因为该数据中心还没有投入使用。

2015年1月27日,2点起,便有网友发现,无法登陆Facebook,页面显示"对不起,出故障了,目前正在抢修,会尽快修复"。同时,黑客组织Lizard Squad发推特,声称对此次宕机事件负责。

Facebook发言人称:"此次故障与第三方攻击无关,发生故障的原因是我们对系统设置做了一点改动。"但相关数据显示,Facebook美国总部当天曾遭受大规模DDos攻击。

2015年1月25日21时30分,由中国教育电视台直播的福利彩票“双色球”15011期开奖突然取消。随后中彩网通知称由于数据通讯传输故障导致,待故障排除后再在公证员的监督下进行开奖。推迟开奖两小时后,中彩网在网上公布了中奖号码,并附有一则中奖人介绍。

2015年3月11日,包括App Store、iTunes Store、Mac App Store以及iBooks Store在内的一系列苹果在线商店服务,遭遇大面积服务中断。据统计事故恢复时间长达11个小时。

苹果公司针对该事件公开向用户道歉,并表示,宕机原因是苹果公司内部DNS错误。但此次故障,使苹果在股市上下跌1.82%,市值蒸发了130亿美元。

2015年5月10日陌陌因网络故障无法正常使用,第二天网页也宣布骨干网络受到攻击。

2015年5月11日,因骨干网络遭受攻击,导致网易旗下部分服务(大部分产品如网易新闻客户端,网易云音乐及众多游戏,如梦幻西游等均出现登陆故障,导致无法连接与刷新。)暂时无法正常使用。

2015年5月26日,位于美国亚利桑那州平顶山的苹果工厂发生火灾,起火点位于该公司数据处理中心屋顶的光伏组件。0.5h后火灾扑灭。一个方阵的电池组件报废,短期内可能较难恢复工作。

2015年5月27日,全国各地微博网友反映支付宝无法登录,无法支付,支付宝提示交易查询失败。2.5h后基本恢复。

2015年5月28日,携程官方网站及APP暂时无法正常使用,将近11.5h后才基本恢复。

在携程出现故障后,携程在首页上方提示,消费者可以前往艺龙旅行网进行消费。不久之后,艺龙旅行网首页也无法访问。28日18时许,艺龙官方微博回应道,"因遭受网络攻击,艺龙网首页出现部分用户无法访问的情况,目前已恢复正常"。

2015年6月3日上午2:30(北京时间),位于北卡莱罗纳州 Maiden 的苹果数据中心发生了氯气泄露事件,导致至少5人受伤。

2015年6月5日 今日头条网首页和APP都无法访问,直接提示500错误。故障原因:不明 影响时长:30分钟左右。

2015年6月6日下午,因广东1区(GD1)所在IDC遭遇雷暴天气引发电力故障,QingCloud广东1区全部硬件设备意外关机重启,造成QingCloud官网及控制台短时无法访问、部署于GD1的用户业务暂时不可用。设备重启后2小时31分GD1业务恢复,系统数据和用户的业务数据未出现任何丢失。

在2015年6月21日,阿里云香港节点出现权限宕机,业务中断超过12小时!甚至出现部分用户数据损毁!

当晚,阿里云发布公告称,此次故障因香港运营商IDC电力问题所致。据称其二号数据中心于21日上午9点40分因电力故障导致部分客户服务终端,经抢修,下午2点恢复部分客户服务,晚上9点50分完全恢复电力供应,客户服务全部恢复正常。

2015年6月29日下午5点30分(莫斯科时间)左右,俄罗斯鞑靼斯坦共和国阿尔法银行自动取款机、银行网点均停止服务。

6月30日晨,该行自动取款机、网上银行和银行网点都已正常恢复运行,阿尔法银行称,其技术故障已经解除,但并没给出准确的故障时间。

有消息称,此次俄罗斯阿尔法银行的业务停止是由于技术故障导致。但也有网友表示对这种解释不信服,认为这是让运维人员做替罪羊。

2015年7月3日晚8点,《盗墓笔记》在爱奇艺全集上线,由于必须是"爱奇艺VIP会员"才能观看全集,这掀起了"充值付费潮"。然而,瞬间涌入的流量,让爱奇艺服务器宕机了!最多时有超过70%的VIP会员无法观看《盗墓》。

2015年7月8日11时32分至15时10分,纽交所因故障暂停交易。据称,作为世界最大交易所之一,纽交所暂停交易超过3小时,可谓前所未有。

随后,纽交所在推特上表示:此次故障由于交易所内部技术问题导致,已排除外部网络攻击的可能。纽交所主席法利表示,此次故障可能与软件升级有关。

2015年8月12日23:30左右,位于天津滨海新区塘沽开发区的天津东疆保税港区瑞海国际物流有限公司所属危险品仓库发生爆炸。附近所有数据中心建筑均受到部分影响,绝大部分数据中心出于人员安全和其他安全要求,转移负载中断本地运行。

。。。

。。。

。。。

某机房工人独自在现场带电施工,手拿线缆穿过带电配电柜,因不小心手掌触碰到配电柜母排上,造成手心被电击穿。

某机房在21米高的平台铺设电缆时,由于未做好安全防护措施,一名工人被电缆从该平台上甩出,坠落至11米处被一根铁管缓冲后落地,造成4级伤残。

某机房因地板光滑且未检查梯脚是否完好,造成梯子滑倒,工人严重摔伤。

某机房工人在施工现场清理卫生时,不小心将客户在线使用设备的配电柜开关碰掉闸,造成设备停机2分钟,损失约几十万。

某机房在竖井里进行墙壁开孔,用水钻时,未考虑原配电柜与桥架之间已经连通,水顺势流入配电柜母排,造成短路,导致整个大楼全部停电。

某机房在配电柜送电前期,未对电缆做绝缘遥测,当配电柜送电时,因电缆护套已被配电柜体划破,造成短路爆炸。

。。。

。。。

。。。

某机房聘用非专业保洁,清洗外墙,造成消防应急按钮被水枪启动,喷光几十万灭火剂。

某机房消防预演,导致服务器损坏,核心业务受损10h。

某机房ups升级,导致机房整体宕机,核心业务受损7h。

某机房运维不力,造成机房浸水。

某机房运维不力,造成动力系统断电。

某机房验收不力,造成动力系统故障。

。。。

。。。

。。。

安全与事故

数据中心的事故带来的最大损失往往并不是那几十上百甚至上千万美元的直接经济损失,对于众多知名品牌与上市公司来说,其对于品牌和股价等隐形价值的不利影响将会是最令人头疼的。

根据之前介绍的海恩法则,在事故发生前,新一代专业运维人员能从各类故障隐患、端倪和故障中提前发现事故隐患和主动整改并制定应急措施,降低事故可能性,保障系统安全运行。

当然这只是最后兜底,一个良好的数据中心运营团队,应该从一开始(需求、立项、选址、规划)直至全程就始终如一的关注和重视安全施工与安全生产相关的设计、建设与运维。

网络安全、基础设施安全;设计、建设、运营;供电、供水、通讯;基础设施运维、维保、供应商管理;等等任何一个环节,任何一个专业,任何一个部门,任何一个时间的安全建设、安全生成、安全运行没有做到位,就可能带来重大的数据中心安全事故,给人生、财产、名誉带来极大的损失。

主编寄语

我们能够尊重设计单位、施工单位、监理单位、建设与运营单位有着各自的利益核心;

我们也能够理解采购部门、项目建设管理部门、项目设计管理部门、项目运营管理部门各自不同的绩效考核;

但请所有人不要为了一点点利益,随意践踏人之为人的底线。

在体制和制度没有形成大团队一致的目标时,人生安全应成为所有能称之为人之人的真正的底线。

无论你是一个手握重权还是手无缚鸡之力的人,请不要习惯性的说“No” or “Yes”。

如果做不到,

请不要遗忘为什么要默哀7s钟。

请从下面这首音乐中获取一点反抗的力量吧。

人生注定会遇到很多种不平(违反善之初心,违反技术原则,违反规章制度,违法乱纪,违反做人的底线),如果往前一千年,你愿意路见不平一声吼,毅然拔刀相助么?

本文转自d1net(转载)

时间: 2024-09-13 09:46:01

数据中心安全与事故的相关文章

智慧型数据中心露峥嵘

香港虽然是弹丸之地,但因其独特的地理位置.丰富的带宽资源,以及语言和人才等方面的优势,成了许多世界级的数据中心服务商建设数据中心的首选之地.特别是那些想进入中国市场的海外数据中心服务商,以及率先"出海"的中国数据中心服务商.云服务商,大多会选择以香港为桥头堡.举例来说,正大张旗鼓地在全球范围内扩张的阿里云就在香港拥有租赁的数据中心.再比如,2015年12月,继香港葵芳数据中心之后,万国数据在香港的第二座数据中心--荔景数据中心也正式投入运营. 2015年12月9日,NTT Commun

数据中心安全防御大法大放送

数据中心是在不断变化的,尤其现在应用需求多种多样,数据中心需要不断地去变化,才能适应这些应用,和传统的数据中心不同,现在数据中心里应用最普及的就是虚拟化技术,数据中心虚拟化后,安全问题就已突显出来.原来数据中心每个物理环境相对独立,安全产品保护服务器和应用,安全防御还可控,但虚拟化来了后,所有虚拟机都共享资源,虚拟机和应用程序随时可能移动或变更,这给安全防御带来极大困难,很多人对数据中心的安全能力表示怀疑,尤其相比以往,数据中心类似发生数据泄漏的事件明显要更多,如何挽回人们的信任将关系到数据中心

你知道数据中心宕机的真正成本吗?

数据中心对企业至关重要,根据调研机构IDC研究表明,之后全球每两年所产生的数据量将会翻一番,这将为企业使用技术增加收入.提高业务绩效提供了更多的机会,而利用这些机会的关键就在于数据中心.但是,随着数据量的增加,数据中心基础设施也面临着更大的压力. 安全提供商赛门铁克公司对2400多名IT专业人士做了相关调查,结果令人震惊,在过去一年中,平均每个数据中心发生停机事故高达16次,最常见的原因有系统故障,人为错误和自然灾害.大家都知道这将付出高昂的代价,但是大家是否知道数据中心停机时间付出的代价将达到

数据中心安全防御大法

数据中心是在不断变化的,尤其现在应用需求多种多样,数据中心需要不断地去变化,才能适应这些应用,和传统的数据中心不同,现在数据中心里应用最普及的就是虚拟化技术,数据中心虚拟化后,安全问题就已突显出来.原来数据中心每个物理环境相对独立,安全产品保护服务器和应用,安全防御还可控,但虚拟化来了后,所有虚拟机都共享资源,虚拟机和应用程序随时可能移动或变更,这给安全防御带来极大困难,很多人对数据中心的安全能力表示怀疑,尤其相比以往,数据中心类似发生数据泄漏的事件明显要更多,如何挽回人们的信任将关系到数据中心

艾默生:数据中心停电每分钟损失可超5000美元

美国报告显示,IT预算紧张是数据中心运营恢复的最大阻碍.依据艾默生所属业务品牌."关键业务全保障TM"的全球领导者艾默生网络能源和波耐蒙研究所的一项新研究,数据中心意外停电每分钟损失可超过5,000美元,包括收入和生产损失.数据损毁和利益相关者的信任受到损害带来的损失,以及企业所付相应的法律责任所导致的损失. 此外,停电事故并不少见,根据该研究,95%的美国企业在过去两年中至少遭遇一次数据中心意外停电事故,而大多数数据中心专业人员采用措施不当且投资不足,阻碍了停电预防和停电反应时间.

软件错误影响亚马逊数据中心恢复

http://www.aliyun.com/zixun/aggregation/17197.html">北京时间8月10日,据国外媒体报道,由于EBS(弹性块存储)软件中的一个错误,亚马逊公司恢复AWS服务的工作变得复杂起来.该服务在本周一由于都柏林数据中心的停电事故而中断. 由于软件错误,EBS镜像管理系统无法使用和删除块.亚马逊公司也已经发布了该错误信息,并采取措施防止其再次发生,同时禁用了所有遗失块的镜像.一旦新镜像可用,亚马逊将向受影响用户发邮件,通知用户可以用新镜像恢复数据. 最

从天津爆炸事故思考数据中心容灾建设

天津,还是天津.最近几天,天津受到了来自全国各地的太多关注.在所有关于这座城市的众声喧哗中,不乏真实的声音--当然,真相中也掺杂着谣言,例如"某数据中心严重受损"等博眼球的不实报道.拒绝妖魔化,是我们应有的态度.冷静思考,我们可以看见,天津在中国的数据中心版图依旧举足轻重,不会因为一次灾难而轻易改变.   天津数据中心的情况如何? 据不完全统计,天津的数据中心主要有国家超级计算天津中心.腾讯天津数据中心.世纪互联.万国数据.华胜天成等等.其中,腾讯数据中心的规模较大,有20万台服务器.

事故保密影响数据中心运维安全

日前,数据中心行业专家获得一个可以提高数据中心可靠性的简单建议,就是将数据中心冗余设施提高一个数量级,如果数据中心行业可以被说服并采纳的话.专家认为这个并不现实. 可靠性并不是一个绿色节能的问题,但它肯定与能源效率有着相互影响.这二者要求往往是相互对立的,可靠性越来越高,通常意味着数据中心在储备区储存更多的柴油乃至整个热备用设施部署更多的设备,这都会增加了企业的碳足迹. 但是,在可靠性方面的所有这些努力可能会导致碳浪费,其实际上可能是在浪费时间. 很多人可能对他们的数据中心的可靠性感到迷惑,关键

飓风桑迪:曼哈顿数据中心的灾难应急方案

在曼哈顿下城区,飓风的影响令电梯无法正常工作,Peer 1 Hosting公司的管理员们不得不用大桶为位于18楼的柴油发电机补充燃料.而在新泽西州,SunGard公司则紧急规划燃油车行进路线,避免车辆为洪水所困.   纽约城严阵以待,中心商业区曼哈顿的证券交易所门口摆满了沙袋 灾备规划已经被公认为数据中心运维工作中的最佳实践之一,但飓风桑迪用自己的强大的威力证明,自然灾害一旦出现,管理人员意料之外的情况总会不请自来.在这个时候,固有灾难恢复计划很可能暴露出诸多弊端,这就需要管理者即兴发挥.针对具