防止数据中心宕机的集成系统测试(IST)

不久前,洛杉矶地下室爆炸导致其附近的Equinix公司和INTERNAP公司数据中心的电力中断。而谷歌公司在德国的数据中心最近遭受雷击。世纪互联公司新泽西州的一个数据中心冷冻水管道日前发生故障,影响了纽约证券交易所的数据显示。

所有这些事件都发生在最近几周,这些事故呈现出导致数据中心宕机和基础设施故障的类型。

当电源中断或冷却水停止流动时,集成系统测试(IST)可以验证应急电源、机械和监测系统运行的设计和建造,以及应用程序的集群,甚至整个数据中心会回应用户的期望,

“集成系统测试的唯一机会,你将不得不测试设施的完整的力度。”总部在彼得伯勒的英国数据中心测试企业E1E10公司董事总经理斯蒂芬•福特说,其在集成系统测试(IST)方面有着十多年的经验。

实施IST的想法是有道理的,但不是每个人都尽他们可能去做。比较IST做备份或灾难恢复(DR)。每个人都进行备份并采取快照,但究竟有多少企业能够实际测试这些备份呢?

 

拔掉插头的数据中心

在所有级别的集成系统测试完成之后,Facebook公司最近关闭了其一个数据中心,在所有必要的准备工作到位之后,什么都没有发生。

福特表示,他认为银行和政府机构是进行IST最认真的部门。在某些行业中,对法规和规则的遵从对业务连续性或DR准备可能会迫使组织去执行。但其他公司可能还跳过IST或执行时偷工减料。

“有些人只是刚刚经历就是说他们已经做到了,这并不是系统的真正考验。”福特说。

vXchnge公司是一家在美国拥有15个数据中心的主机托管提供商,作为中立的供应商,其每年都做一次完整的集成系统测试IST。该公司在客户已启动并运行业务之前执行IST,然后每年实施一次。

“它创造了在受控环境中混沌的可能性。”vxchnge公司的佛罗里达州坦帕市工程高级副总裁和首席技术官阿里•玛利斯说。

Vxchnge公司在一个数据中心进行的可以发现各种各样的问题,第一次实施IST是其显示控制和监测系统,其电源电路并没有全部连接到UPS供电系统。

“当我们把插头拔了,我们发现监控系统变暗了。”他说。

玛利斯注意到,“N+1”数据中心设施的可靠性更高,因为其没有单一故障点,因此风险较低。“这个事件验证冗余系统可以用无缝的方式捕捉负载运行的情况。”他说。

VXchnge公司取得了一定的增长,在最近几个月购买了几家数据中心。在一个案例中,该公司无法确定哪一次是其实施IST的最后一次。

“我们不了解所不知道的东西,而是将我们能回答这些问题的唯一途径。”“玛利斯说。“有些企业只是刚刚经历就说他们已经做到了,其实这不是真正的系统测试。”

玛利斯致力于集成系统测试工作超过15年,他表示期待两件事:数据中心可以实现端到端的运营,以及人员和流程可以得到正确的反应。

这很重要,因为“工作人员的错误仍是数据中心宕机的最主要的因素。”玛利斯说,

“大多数主要的多租户数据中心托管提供商都在实施IST,但其频率可能会有所不同。”玛利斯表示,他曾在Equinix工作过三年,每年实施IST是标准的做法。

不要害怕IST

玛利斯表示,托管客户通过开展自己的类似的测试与他们的供应商合作,而实施IST可能是一个机会,客户可以通过失败的案例,可以更加重视数据中心的冗余备份工作。

对于vXchnge公司来说,总是提前通知客户要有足够的注意,使他们能够按计划实施自己的试验。

E1E10公司总经理斯蒂芬•福特建议,数据中心运营商最好每周对其发电机组和UPS供电系统进行一次离线测试。他曾参与的一次IST中,其中一个公司的数据中心一年之内都没有运行过。在另一种情况下,他发现在柴油贮存罐发现有水,这是一种常见的情况,可能是由于温度变化,或者很长时间没有使用柴油燃料。

福特表示,企业的最高管理层担心集成系统测试的结果可能是其最大的障碍。尽管如此,如果数据中心已经到位,并建立了备用电源和故障转移的计划,但人们从来没有用过,那么怎么知道这是否真的有用?

福特说:“他们只认为这是创造风险的测试。直到有了错误,却很难说服他们去这些做。”

对于一个大型汽车公司来说,星期六是一个忙碌的日子。福特说,而星期一上午,汽车公司管理层对周末的汽车销售数量进行了审查,发现没有任何出售车辆。原来,该公司的数据中心已经宕机,其备份失败,销售数据没有保存下来。

福特说:“IST这一业务尚未实现其数据中心的关键使命。”

总部在加利福尼亚州布雷亚的PLANNET公司数据中心支持系统经理迈克尔•福鲁曼表示,他曾在现场设备进行完整的集成系统测试时遇到过类似的问题。

“反对者说实施IS会冒很大的风险。”福鲁曼说。

福鲁曼表示,如果IST在计划和排练时得到了密切关注,其风险很低,远远小于数据中心业务关键时刻到来的风险。

“实施IST通常在星期天凌晨3点在或某些疯狂的时候进行。”福鲁曼说。

福鲁曼和玛利斯一样,都认为采购数据中心时实施IST的一个很好的时间。

福鲁曼表示,例如,客户购买了一个使用了五年的数据中心,该数据中心从没有过任何的失败,“但这客户他们真的不知道这个数据中心有什么隐患。”

通常,数据中心一些组件和子系统的个别测试都会首先执行。这有助于检测出来自不同供应商的设备的任何问题。

他说:“数据中心有一些事情可能不是正确的,如果一次都不发生,也可能是很难搞清楚。”这一切导致了一个更大的“拔掉插头测试。”,“每个人都会想,这可能是最后一个。”福鲁曼说。

在企业数据中心中,集成系统测试将让数据中心设施更加完善,IST往往需要更详细的协调执行。

玛利斯表示,人们没有理由不这样做,如果有条件,人们在拔掉数据中心插头之前,解决那些需要解决的问题。

作者:何妍 

来源:51CTO

时间: 2024-11-01 19:16:01

防止数据中心宕机的集成系统测试(IST)的相关文章

2015数据中心宕机20%是由DDoS攻击引起

由Ponemon Institute进行一个双年度的研究报告显示,和2010年相比,2013年数据中心停机成本已经上涨相比.报告包括来自美国各地的63个数据中心具有代表性的样本数据.研究表明,数据中心停机的平均成本从2010年的$505,502上升到2013年的$690,204,2015年这个数字达到$740,357,和2013年相比上涨了7%,和2010年相比上涨了38%. 该研究对象只包括非计划停运,这意味着计划的维护操作成本不包括在样本数据之内.研究人员认为停机成本包括设备或其他资产损害,

如何降低数据中心宕机事件的影响

大多数人在生活或工作领域中都不希望出现连接中断的情况,尤其是在以数字生活方式为主的今天,所以数据中心基础设施变得越来越重要.对于许多消费者来说,他们希望自己的数字产品和服务能保持正常工作,所以当发生宕机事件时,他们就会开始抱怨甚至投诉. 以最近的航空数据中心宕机事件为例,如美国达美航空.西南航空和英国航空公司,由于一个简单的电气故障或不当的维修程序,导致服务器遭到灾难性损坏,航空公司损失数亿美元,数以万计的乘客被滞留在全球各地的机场. 这些大规模的宕机事件总能成为新闻头条,而且数据中心宕机事件比

你知道数据中心宕机的真正成本吗?

数据中心对企业至关重要,根据调研机构IDC研究表明,之后全球每两年所产生的数据量将会翻一番,这将为企业使用技术增加收入.提高业务绩效提供了更多的机会,而利用这些机会的关键就在于数据中心.但是,随着数据量的增加,数据中心基础设施也面临着更大的压力. 安全提供商赛门铁克公司对2400多名IT专业人士做了相关调查,结果令人震惊,在过去一年中,平均每个数据中心发生停机事故高达16次,最常见的原因有系统故障,人为错误和自然灾害.大家都知道这将付出高昂的代价,但是大家是否知道数据中心停机时间付出的代价将达到

D1net阅闻:2015数据中心宕机20%是由DDoS攻击引起

2015数据中心宕机20%是由DDoS攻击引起 Ponemon Institute进行了一个双年度的研究报告,报告包括来自美国各地的63个数据中心具有代表性的样本数据.研究表明,数据中心停机的平均成本从2010年的$505,502上升到2013年的$690,204,2015年这个数字达到$740,357,和2013年相比上涨了7%,和2010年相比上涨了38%.大多数数据中心宕机是由错误的UPS设备引发,占所有事故数量的25%,紧随其后的是DDoS攻击,占22%,DDos攻击数量在过去几年稳步增

十个应对数据中心宕机的措施与方法

虽然数据中心的设计在理论上不会发生故障,但它确实会出现这种情况,因此数据中心运营商将面临非常严峻的情况,特别是托管数据中心. 根据最近发生的一些事情,表明托管数据中心遭遇停电和业务中断的后果是十分严重的.例如:英国电信公司是全球最大的通讯商和托管数据中心商之一,其运营的数据中心今年遭遇两次宕机事件.据报道,由于故障影响,伦敦及其周边地区的语音和数据流量下降了10%,事故时间长达四小时以上. 尽管在设计和运行数据中心时努力避免中断或事故,但数据中心托管设施并不能避免这些问题,其短期和长期的意外中断

艾默生网络能源发布《2016年数据中心宕机成本》

--数据中心故障每分钟为企业带来损失近9000美元 最新研究报告发现,数据中心宕机成本持续攀升:5年内平均宕机成本增加38% 近日,艾默生网络能源与Ponemon研究院合作,发布了<2016年数据中心宕机成本>报告,对数据中心意外宕机所带来的成本进行了评估.这是艾默生网络能源与Ponemon研究院,在对美国过去12个月当中发生过宕机的63个数据中心进行调查后所做出的研究结论. 艾默生网络能源与Ponemon研究院曾在2010年首次联合发布了数据中心宕机成本研究--一项对数据中心宕机的成本与成因

数据中心集约化解决方案

随着企业IT架构加速转向云计算和虚拟化,数据中心建设成为众多企业用户IT策略的关键组成部分.然而,流窜在数据中心中的病毒.木马.恶意攻击不仅极大的威胁着数据中心的业务连续性,还容易导致企业重要的信息资产受损.同时,企业还需要平衡数据中心中安全防护与应用效率的矛盾,提升数据中心投资效益.在NSS Labs等权威机构的测试中,飞塔(Fortinet)的数据中心防火墙被证明在安全防护有效性上表现突出,并且拥有强大的吞吐性能,即使在负载高峰期也不会拖慢应用速度,从而保护数据中心的安全投资. 数据中心面临

Fortinet数据中心集约化解决方案助企业保护数字资产

随着企业IT架构加速转向云计算和虚拟化,数据中心建设成为众多企业用户IT策略的关键组成部分.然而,流窜在数据中心中的病毒.木马.恶意攻击不仅极大的威胁着数据中心的业务连续性,还容易导致企业重要的信息资产受损.同时,企业还需要平衡数据中心中安全防护与应用效率的矛盾,提升数据中心投资效益.在NSS Labs等权威机构的测试中,飞塔(Fortinet)的数据中心防火墙被证明在安全防护有效性上表现突出,并且拥有强大的吞吐性能,即使在负载高峰期也不会拖慢应用速度,从而保护数据中心的安全投资. 数据中心面临

防止数据中心停机需要采取什么措施

日前,据调研机构对于数据中心的运营调查报告中表示,某些数据中心宕机事件本不应该发生.而其宕机的主要原因并不是由于恶劣天气.计划外维护.甚至电网故障等因素导致,相反,这是一些组织糟糕的计划和维护不当造成的.从航空公司到互联网巨头,这些主要的用户和企业都已经成为了停机中断事件的受害者,并且也深刻感受到这些可以预防的数据中心中断事件的影响.然而不幸的是,这种情况并不少见. 数据中心行业厂商通过对欧洲各国IT和数据中心管理人员的调查表明:27%的受访者表示在过去的三个月遭遇过长时间的中断,对组织业务产生