为了帮助行业从像最近的英国航空公司发生的IT事故这样的事件中学习,此次中断事件在5月底的那个周末取消了数千架次的航班。目前一个即将成立的行业组织将致力于分享有关数据中心故障的数据。
如果航空公司的一架飞机发生空难,那么就会立即进行中立调查,以查明出现的问题。数据中心也可以提供这样的关键服务,但其故障或潜在的灾难通常被隐瞒,或受到涉及公司的内部查询,最终被不对外披露协议所掩盖,其结果是相同的故障将一再反复发生。
数据中心事件报告网络旨在通过建立一个中立和匿名的论坛来共享关于导致严重的IT故障或近乎失败原因的数据来改变这一点。它将于今年8月3日在英国数据中心利益集团伦敦会议上发布。
从失败中学习
i3 Solutions公司创始人Ed Ansett表示,“人们需要了解的重要事情是许多故障是经常性故障。“我前段时间得出的结论是人们没有从经验中学习。”
Ansett对许多重复发生的IT故障进行了编目,他表示,“很多数据中心的中断,人们曾多次遭遇,就像两年前的新加坡证券交易所的中断事件,但人们需要找出其根本原因,以及如何避免这种情况。”
Ansett表示,之所以有了分享这些事件发生原因的想法首先出现在2015年DCD新加坡活动的演讲中。他说:“分享的目的不是为了获得利益,而是一种数据中心的民间学习行为。”
尽管人们通常不愿分享自己的数据中心失败的细节,但Ansett相信有些企业会愿意分享“数据中心的崩溃的原因和宕机的细节”,并以此教育人们。Ansett说,“我的感觉是有很多人都想进行分享,特别是几年前的事情。”
该小组将开始从小做起,但在某些时候,它将需要资助一个审查提交信息的秘书处。Ansett说,任何资金都必须是中性的,而不是来自单一的设备供应商。数据中心行业没有相当于民航局可以进行碰撞调查的机构。
目前i3 Solutions公司设有一个咨询委员会,主要致力调查电力和冷却领域,但其未来的计划将达到到更高的层次,其中包括网络,服务器和存储和应用。
在数据中心故障之前,这只是一个时间问。英国DCIG公司的Simon Allen说。“我们现在需要采取行动,没有理由这个古老的秘密应该占上风。”
他指出航空业界分享事故信息的记录,他说:“在数据中心行业,普遍的做法就是在误导保护企业声誉的过程中,掩盖其失败或潜在的灾难,情况并非如此。其根本原因调查结果通常是秘密的,受到NDA的约束,导致数据中心行业在从失败中学习中处于不利地位。”
i3 Solutions公司的第三方受托人是关键任务设施专家Peter Gross。
本文转自d1net(转载)