电源对于数据中心的重要性就好比心脏对人类的重要程度,没有电源的持续供电数据中心就无法运转。当数据中心的设备出现自动断电、关机、电源故障等相关不良现象时,统称为掉电故障。掉电给数据中心带来的损失将非常严重,数据中心可能直接会停止运转,所有的应用系统都无法继续运行。比如2016年6月大连电信枢纽机房因市电故障,设备突然闪断,并造成部分线路短路,变压器受损引起跳闸,导致核心设备出现故障。掉电造成大连市区、旅顺地区移动网用户手机通话、短信等功能无法正常使用;2015年11月山西证券就因为数据中心机房掉电,股市行情交易系统中断,导致很多股民无法进行交易,损失严重;2012年10月恰逢凡客诚品五周年纪念日,机房掉电导致凡客诚品出现访问故障,网站长时间没有交易,损失不少收入;2011年11月天津塘沽的一个运营商核心机房掉电,导致遨游、豌豆荚、新浪邮箱等多个服务中断,等等。这类数据中心掉电导致业务中断的案例数不胜数,还有很多,在此不一一列举。没有人希望数据中心掉电,掉电已经成为了数据中心的心腹大患,因为不知道掉电会什么时候发生,会在哪些设备发生,掉电发生前没有任何先兆,这让数据中心对于掉电问题素手无策。掉电已经成为数据中心无法抹去的痛,面对掉电问题,很多时候都素手无策。
掉电不仅导致正在运行的业务有损失,还会带来其它很多方面的负面影响。首先掉电对电子设备有很大危害,当正在运行着的设备,突然输入没有供电了,设备里的所有电容器件都要进行放电。如果是彻底断电还好,如果是频繁上下电,或者供电质量不好有波动,这类情况最容易造成设备内部具有电容属性的器件故障,减少设备的使用寿命;其次掉电对于电子设备内部使用的内存类存储器件有影响,内存器件正在读写过程中,突然掉电,内存颗粒反复上下电,质量不好的内存条容易出现损坏,进而导致在来电时,设备初始化过不了而无法正常启动,设备出现故障;第三掉电容易造成应用软件系统出现运行异常。比如:掉电对LINUX系统服务器的危害。LINUX文件系统包含各种有日志功能的EXT3、REISERFS、JFS等,这些日志文件系统,都敌不过掉电的打击。常用的EXT3和REISERFS文件系统,当遭遇到突然掉电,系统再次开机时,时常发生无法自举故障,需手动FSCK才行。
还有对ORACLE数据库也有损害,掉电会导致ORACLE部分控制文件坏、REDOLOG坏、Rollback Segment坏、数据文件坏等,当重新供电时,ORACLE数据库无法正常启动,运行异常。造成这些应用系统异常的根本原因是在发生掉电时,这些应用软件的数据没有及时备份起来,如果在掉电发生后,设备能延迟工作几分钟,将重要的数据保留完整,就不至于发生这类的故障。第四断电仅仅是掉电故障的一个原因,很多时候并不是因为没有供电而导致的掉电,掉电的含义要宽广得多。比如设备故障引起供电线路的短路,产生了超大的电流,击穿了保险盒开关,导致这路供电设备均掉电;供电电源遇到了过压、过温等保护,电源自动进入保护而不再工作,这样也会导致设备掉电;有时设备上某些重要电压没有产生而造成欠压保护引起的掉电,通常表现为上电即断,无法用万用表测量相关电压。总之,掉电给数据中心及其设备造成的影响是多方面的,要适当做一些防护措施避免数据中心频繁发生掉电故障。
很多时候,数据中心发生掉电故障多为人为操作导致的。有时在进行电力施工时,误将供电电缆搞断了,引起了掉电。有时在进行设备供电线路调整时,不小心接错导致断路或短路,从而引起部分设备掉电,这类人为掉电故障屡见不鲜,教训深刻。所以,数据中心首要任务就是要将人管理起来,制定严格和详细的操作规范,避免出现低级的人为掉电故障;数据中心还要有冗余供电,根据自己的财力情况,在不同级别的设备供电上做冗余供电,因为只采用一路市电给数据中心所有设备供电,万一市电故障,整个数据中心就会停转。
所以最好引入两路不同的市电,并且对核心设备要有UPS、蓄电池或者备份电源,这样当市电真的故障时,采用备份电源也可以保证数据中心继续运行数个小时,等市电恢复供电,再将设备供电输入切到市电上,要周期性检查这些备份供电系统的剩余容量,平时备份电源是待命状态,而要使用的时候,供电容量一定要确保,不能在关键时刻掉链子;要周期性对数据中心的供电安全进行评估,全面核查供电中的安全可靠性,及时发现日常维护中所不能发现的问题。同时制定供电应急预案,明确发生掉电故障时的处理流程、操作人员、操作步骤与厂商支撑等方面要求,在实际应对掉电事件时,就能做到“手中有粮,心中不慌”。要保持数据中心内部良好的温湿度环境,避免电子设备产生静电、腐蚀、过压、过流等故障,这些都可能引发设备掉电故障。虽然我们无法预知掉电故障何时会出现,但我们可以提前做一些防护工作,避免掉电出现,万一发生了掉电,也有完整的应急预案,确保数据中心业务不受掉电影响。
掉电是数据中心无法抹去的痛,曾给数据中心带来很多次惨痛的教训。经过以上的说明,可以看到掉电故障虽可怕,但通过制定一些防护方案是可以大为减少掉电发生频率的。即使发生了,也有通过提前部署好的冗余供电系统来避免给数据中心业务造成损害。
本文作者:harbor
来源:51CTO