不久前,洛杉矶地下室爆炸导致其附近的Equinix公司和INTERNAP公司数据中心的电力中断。而谷歌公司在德国的数据中心最近遭受雷击。世纪互联公司新泽西州的一个数据中心冷冻水管道日前发生故障,影响了纽约证券交易所的数据显示。
所有这些事件都发生在最近几周,这些事故呈现出导致数据中心宕机和基础设施故障的类型。
当电源中断或冷却水停止流动时,集成系统测试(IST)可以验证应急电源、机械和监测系统运行的设计和建造,以及应用程序的集群,甚至整个数据中心会回应用户的期望,
“集成系统测试的唯一机会,你将不得不测试设施的完整的力度。”总部在彼得伯勒的英国数据中心测试企业E1E10公司董事总经理斯蒂芬•福特说,其在集成系统测试(IST)方面有着十多年的经验。
实施IST的想法是有道理的,但不是每个人都尽他们可能去做。比较IST做备份或灾难恢复(DR)。每个人都进行备份并采取快照,但究竟有多少企业能够实际测试这些备份呢?
拔掉插头的数据中心
在所有级别的集成系统测试完成之后,Facebook公司最近关闭了其一个数据中心,在所有必要的准备工作到位之后,什么都没有发生。
福特表示,他认为银行和政府机构是进行IST最认真的部门。在某些行业中,对法规和规则的遵从对业务连续性或DR准备可能会迫使组织去执行。但其他公司可能还跳过IST或执行时偷工减料。
“有些人只是刚刚经历就是说他们已经做到了,这并不是系统的真正考验。”福特说。
vXchnge公司是一家在美国拥有15个数据中心的主机托管提供商,作为中立的供应商,其每年都做一次完整的集成系统测试IST。该公司在客户已启动并运行业务之前执行IST,然后每年实施一次。
“它创造了在受控环境中混沌的可能性。”vxchnge公司的佛罗里达州坦帕市工程高级副总裁和首席技术官阿里•玛利斯说。
Vxchnge公司在一个数据中心进行的可以发现各种各样的问题,第一次实施IST是其显示控制和监测系统,其电源电路并没有全部连接到UPS供电系统。
“当我们把插头拔了,我们发现监控系统变暗了。”他说。
玛利斯注意到,“N+1”数据中心设施的可靠性更高,因为其没有单一故障点,因此风险较低。“这个事件验证冗余系统可以用无缝的方式捕捉负载运行的情况。”他说。
VXchnge公司取得了一定的增长,在最近几个月购买了几家数据中心。在一个案例中,该公司无法确定哪一次是其实施IST的最后一次。
“我们不了解所不知道的东西,而是将我们能回答这些问题的唯一途径。”“玛利斯说。“有些企业只是刚刚经历就说他们已经做到了,其实这不是真正的系统测试。”
玛利斯致力于集成系统测试工作超过15年,他表示期待两件事:数据中心可以实现端到端的运营,以及人员和流程可以得到正确的反应。
这很重要,因为“工作人员的错误仍是数据中心宕机的最主要的因素。”玛利斯说,
“大多数主要的多租户数据中心托管提供商都在实施IST,但其频率可能会有所不同。”玛利斯表示,他曾在Equinix工作过三年,每年实施IST是标准的做法。
不要害怕IST
玛利斯表示,托管客户通过开展自己的类似的测试与他们的供应商合作,而实施IST可能是一个机会,客户可以通过失败的案例,可以更加重视数据中心的冗余备份工作。
对于vXchnge公司来说,总是提前通知客户要有足够的注意,使他们能够按计划实施自己的试验。
E1E10公司总经理斯蒂芬•福特建议,数据中心运营商最好每周对其发电机组和UPS供电系统进行一次离线测试。他曾参与的一次IST中,其中一个公司的数据中心一年之内都没有运行过。在另一种情况下,他发现在柴油贮存罐发现有水,这是一种常见的情况,可能是由于温度变化,或者很长时间没有使用柴油燃料。
福特表示,企业的最高管理层担心集成系统测试的结果可能是其最大的障碍。尽管如此,如果数据中心已经到位,并建立了备用电源和故障转移的计划,但人们从来没有用过,那么怎么知道这是否真的有用?
福特说:“他们只认为这是创造风险的测试。直到有了错误,却很难说服他们去这些做。”
对于一个大型汽车公司来说,星期六是一个忙碌的日子。福特说,而星期一上午,汽车公司管理层对周末的汽车销售数量进行了审查,发现没有任何出售车辆。原来,该公司的数据中心已经宕机,其备份失败,销售数据没有保存下来。
福特说:“IST这一业务尚未实现其数据中心的关键使命。”
总部在加利福尼亚州布雷亚的PLANNET公司数据中心支持系统经理迈克尔•福鲁曼表示,他曾在现场设备进行完整的集成系统测试时遇到过类似的问题。
“反对者说实施IS会冒很大的风险。”福鲁曼说。
福鲁曼表示,如果IST在计划和排练时得到了密切关注,其风险很低,远远小于数据中心业务关键时刻到来的风险。
“实施IST通常在星期天凌晨3点在或某些疯狂的时候进行。”福鲁曼说。
福鲁曼和玛利斯一样,都认为采购数据中心时实施IST的一个很好的时间。
福鲁曼表示,例如,客户购买了一个使用了五年的数据中心,该数据中心从没有过任何的失败,“但这客户他们真的不知道这个数据中心有什么隐患。”
通常,数据中心一些组件和子系统的个别测试都会首先执行。这有助于检测出来自不同供应商的设备的任何问题。
他说:“数据中心有一些事情可能不是正确的,如果一次都不发生,也可能是很难搞清楚。”这一切导致了一个更大的“拔掉插头测试。”,“每个人都会想,这可能是最后一个。”福鲁曼说。
在企业数据中心中,集成系统测试将让数据中心设施更加完善,IST往往需要更详细的协调执行。
玛利斯表示,人们没有理由不这样做,如果有条件,人们在拔掉数据中心插头之前,解决那些需要解决的问题。
作者:何妍
来源:51CTO