日前,数据中心行业专家获得一个可以提高数据中心可靠性的简单建议,就是将数据中心冗余设施提高一个数量级,如果数据中心行业可以被说服并采纳的话。专家认为这个并不现实。
可靠性并不是一个绿色节能的问题,但它肯定与能源效率有着相互影响。这二者要求往往是相互对立的,可靠性越来越高,通常意味着数据中心在储备区储存更多的柴油乃至整个热备用设施部署更多的设备,这都会增加了企业的碳足迹。
但是,在可靠性方面的所有这些努力可能会导致碳浪费,其实际上可能是在浪费时间。
很多人可能对他们的数据中心的可靠性感到迷惑,关键设施专家伊迪•安森特对此作了一个发人深省的演讲。
安森特在报告中指出,有时候硬件会失效,这种情况并不常见,但数据中心的故障通常是由于人为错误,或者因为数据中心设施的设计、测试、维护或操作细节被忽视所造成的。
接着他列举了一些经典的数据中心的事故,例如一个数据中心,其备份柴油储存罐忘记了密封,其导致的后果是柴油机没有及时启动,其原因是那个只有20美分硬币大小的部件缺失。故障发生时,电力系统从飞轮切换发电机组,但是其输出频率开始漂移。这为一个静态转换开关创造了一个“异相”的条件,其变压器线圈饱和。
在另一个例子中,一个数据中心通过两个飞轮UPS系统对其进行电源冗余备份,但是还是发生了故障。当安森特被召集来调查时,他马上就知道问题出现在哪里,因为他在其他的数据中心遇到过这种情况。
这种故障可以进行预测和预防,但前提是以前的故障调查结果已经公布。因为数据中心的故障调查在正常进行下需要签署保密协议(NDA),因此该信息如果公开的话,将让那些存在此类问题的企业受益,但事实上由于保密,通常不会公开这些信息。
如今,由于技术的进步,复杂的系统可以做得非常可靠。那些成熟的行业,如航空业可以实现无故障10万到20小时,而这个数字则是数据中心行业的耻辱,因为没有做到。
“数据中心可靠性还有上升的空间,只是因为人们不同意分享。”安森特说。航空公司被迫通过法律来分享事故调查的结果。他们受到严格管制,因为一旦发生故障,那么乘客将命悬一线。
这并不适用于数据中心,尽管这可能会改变,因为在数据中心基础设施中,需要承担更多重要保护人身安全的功能。而业内人士不希望得到严格的监管和控制。
但在这次会议议上,安森特提出一个想法。那就是在共享一个匿名数据库的基础上,经历事故的数据中心可以分享自己的失败情况,通过实际调查,数据中心行业人士都可以从案例中进行学习与借鉴。这个想法如果得实施的话,就可能促成数据中心的可靠性真正的突破。
促成这件事情将是一场艰苦的斗争,但这应该赢得行业人士的支持,因为无论谁都想要削减数据中心的成本,无论是浪费的电力,资金或精力。
作者:Harris编译
来源:51CTO