高效处理数据中心故障的八条军规

数据中心要全天候运行,难免会出现这样那样的故障。出现故障后,如何迅速找到故障原因并消除故障是一个数据中心运维效率的最直接体现。数据中心一旦发生故障,影响了数据业务,将给数据中心带来巨大的经济损失,有时甚至是毁灭性的打击,所以数据中心都不希望出现任何的故障。当然,愿望是美好的,现实是残酷的,数据中心包含有太多的电子设备和大量的软件,虽然部署了很多的备份技术和设备,但依然很难做到永远都不出故障。那么问题来了,一旦数据中心出现了故障,该如何高效处理?本文将针对如何处理数据中心故障列出八条“军规”,建议遇到数据中心故障时,能遵守这些“军规”,尽量减少故障给数据中心带来的损失,同时避免相同的故障出现第二次。

 

第一条:摸清故障现象

 

数据中心的故障表现复杂多样,先要弄清楚故障现象是什么?一般数据中心故障都是先从应用层面表现出来,如果从这些方面开始分析,很容易走错方向。比如:应用部分反馈访问网页慢、支付系统完成不了支付、游戏业务玩不了了等等,这些应用业务的故障表现往往是片面的,不同技术水平的人和不同的业务部门的人反馈的故障现象都有差别,很容易让人不知道该从何查起。这时要对反馈的故障现象进行收集和整理,找出其中的共性。所谓摸清故障现象,就是找出此时数据中心里统一的故障现象。

 

第二条:测试并确认故障范围

 

根据故障现象,我们要查看这些故障是否来自于同一台服务器、同一条链路或者是同一台网络设备等。所有的应用业务都是在这些物理硬件设备上运行的,其中的任何一个环节的设备出现故障,都会导致问题。此时,各种网络探测诊断工具就派上用场了。通过使用PING、Tracert、镜像、流量统计、抓包等一系列手段,确定故障位置。经过这样一系列的诊断,可以将故障范围缩小到某一台设备或只有数台设备的网络区域。

 

第三条:尝试定位

 

一个经验丰富的数据中心技术人员,往往可以根据故障表现迅速找到故障原因。这时,如果故障影响是可以容忍的,在条件允许的情况下,可以尝试定位问题,试图找到触发此次故障的根本原因。此时技术人员一定要思路清晰,一步步来采集各种信息,深入分析。数据中心里有太多的设备,这些设备来自不同厂家,各自的技术特点也不同,没有哪个数据中心技术人员能全部掌握,如果在短时间内无法定位问题,或者是分析来分析去已经没有任何思路,此时就要放弃继续定位。

 

第四条:收集故障时必要信息

 

一定要在故障的时候收集一些设备的日志、诊断、操作记录、内部隐藏信息,很多信息是设备厂家要求在故障时收集的,要按照厂家的要求将信息收集完整,以便这些信息可以供设备厂家分析,日后找出故障发生的原因。很多时候,数据中心的技术人员急于恢复业务,往往忽略收集这些信息,这将为日后定位问题造成了极大难度。

 

第五条:故障恢复

 

为了尽快消除故障,需要对故障进行恢复。此时不要上来就对疑似故障的设备直接重启或者更换、下电,这样极有可能会造成更为严重的故障。本来原来的故障可能只是偶尔有访问出错,有丢包,经过设备重启就可能造成整网的业务中断。故障恢复的操作应该从轻到重,逐步来尝试执行。比如路由异常,可以先对特定路由进行删除重建,不行的话,再对某一个邻居进行复位重建,还不行的话再对整个路由协议进行重建,这样一来最严重也是影响这一类路由协议的转发,对其它业务并没有影响。还是不行再考虑重启框式设备的板卡,再不行再考虑重启整机设备,此时也尽量不要断电重启,很多设备只要不是断电重启还是会留下一些有意义的历史记录信息。如果数据中心的各个故障环节都是备份系统,可以暂时将业务迁移到备份系统上来,故障的主用系统继续保留,供技术人员继续排查故障,直到找到故障原因,彻底消除后,再将业务切换回来。

 

第六条:再次验证业务的正确性

 

故障恢复后,要再次对数据中心承载的业务进行各种测试,看是否所有的业务都恢复正常,同时与各个业务部门人员交流,确认业务的正确性。当得到准确反馈,所有业务都恢复正常后,再停止业务验证。

 

第七条:长时间观察

 

数据中心故障有时会容易反复,尤其是在没有找到故障原因的情况下,所有的故障恢复手段都可能不是很有效的,很可能会再次出现故障。这时要密切关注数据中心业务运行情况,一旦发现异常,及时处理。

 

第八条:分析故障原因,总结经验教训

 

故障发生后,在还未明确故障原因的情况下,及时将收集的信息发给设备厂商,协同分析,在事后故障分析上要投入大量的人力、物力,直到找到故障原因。如果无法找到故障原因,对于数据中心是最可怕的事情,很可能会再次发生,造成二次的损失,所以要在故障分析上多投入,直到找到故障原因。找到故障原因后,要对产生这次故障的原因进行深入分析,结合目前数据中心的运行状况,看是否有改进的空间,及时总结故障处理过程中不足的地方,对薄弱环节进行加强,避免同样的故障再次发生。

 

处理数据中心故障要严格依照这八条“军规”,只有这样才能在遇到故障时,处理起来有章法、高效率,并能够在处理故障的过程中积累实践经验,不断提升数据中心的运维水平。

====================================分割线================================

本文转自d1net(转载)

时间: 2024-10-25 14:42:38

高效处理数据中心故障的八条军规的相关文章

怪异的数据中心故障

数据中心里包含有大量的IT设备,运转系统非常复杂,经常会出现这样那样的故障,就算一些著名的互联网巨头的数据中心也无法幸免.当然,数据中心可以通过部署很多备份技术,保证在出现故障时不至于影响运行的业务.数据中心故障产生的原因多种多样,绝大多数故障让人很容易理解,也可以通过采取一些补救措施,避免日后再出现,而有些数据中心故障产生的原因就非常怪异,让人二丈和尚摸不到头脑,故障的原因都有些无厘头,本文就来讲述几例怪异的数据中心故障.听到导致数据中心故障的这些原因,脑洞大开,只能感叹数据中心故障防不胜防啊

数据中心夏季安全管理“八防”

夏季气温较高,雷雨多发,为了确保数据中心园区设备设施及人员的安全,让数据中心的工程师来告诉您数据中心夏季安全管理"八防". 一.防雷电 夏季是各地区雷电多发期,为避免雷电对数据中心造成建筑和设备造成损坏,应在雨季前对数据中心建筑和设备进行防雷电设备设施检测工作. 二.防触电 多雨造成数据中心室外设备和地下管沟内设备被雨水浸泡和冲刷,会引起绝缘老化或者降低的设备周围带电,在雨季前应做好室外电气设备的防雨和绝缘检查,避免因雨水导致的触电事故. 三.防火灾 雨季虽然潮湿但火灾风险仍然存在,不

软硬结合 如何构建高效的数据中心?

能耗问题一直是各大数据中心的心头之痛.有数据表明,2015年我国数据中心能耗预计将高达1000亿度,相当于整个三峡水电站一年的发电量;目前国内数据中心的PUE值普遍过高,从2.2到2.6不等.而在国外,施耐德电气参建的位于瑞典的世界首个气候友好型数据中心EcoDataCenter将PUE值控制在1.15以内;位于北卡罗来纳州的勒努瓦的谷歌数据中心,PUE值更是降到了1.12.那么,针对 高能耗.设计不合理.运维成本高的问题,国内要如何构建出如此高效的数据中心?   从设备管理转向资产管理 前一阶

CUI和VPS联手开发智能高效的数据中心电源基础设施

1月20日消息,CUIInc及其母公司CUIGlobal,Inc.宣布与先进的软件定义电源(SoftwareDefinedPower)企业VirtualPowerSystems(VPS)公司达成有限的独家硬件开发协议,两家企业将会合作制定用于数据中心的全新高效电源基础设施的标准. 通过这项协议,CUI将专门设计.制造及销售智能控制能源(IntelligentControlofEnergy,ICE)系统的硬件组件,从而充分实现VPS解决方案的全部价值.ICE模块(Block)硬件通过由VPS研发的

节能高效的数据中心多模UPS系统

随着政府部门和企业面临降低数据中心运营成本和相关能源使用的压力,不间断电源(UPS)生产制造商对其技术与产品进行了设计改进,以提高运营效率. 数据中心行业组织如绿色网格协会强烈建议企业使用新的多模式UPS系统技术,使其运行效率达到98%到99%,取代运行效率为93%至95%传统的单模式UPS.目前,大约50%的大型UPS系统制造商采用具有快速传输逻辑的多模技术.这种类型的UPS很可能在未来五年内得到显著增长. 什么是多模UPS系统? 多模UPS系统为数据中心运营商提供了在两种运行模式之间进行选择

数据中心故障大多源自于人祸

数据中心出现故障在所难免,事后经过分析大部分根因都是人为因素导致,也就是人祸占据了所有故障原因的七成以上.一方面人们享受着自己设计的数据中心所能带来的工作和生活上的便利,另一方面也在承受着成长的烦恼,不断为自己的过失买单.其实不仅在数据中心领域,纵观上下数百年历史,很多灾难都来自于人祸.刘少奇在回顾解放初三年困难时期历史时,造成社会上到处闹浮肿,饿死人,非正常死亡人口达数千万的原因时,说"三分天灾,七分人祸",最终原因基本都是人祸.任何活动只要有人的参与,就不可避免地存在出现人为差错的

企业建立高效IDC数据中心的10大关键要素

由于云计算和虚拟化等新技术的到来,数据中心的演进可能会把它自身变成一个非常不同的环境.然而,任何运作平稳且成功的数据中心总是需要一些基本要素的.不管数据中心的规模是像一个立式式衣柜还是一架飞机,小编为你解答10大关键要素!   1.环境控制 标准化.可预测的环境是任何高质量数据中心的基石.这不仅仅是关乎让设备冷却.维持适当的湿度(根据维基百科,推荐的温度范围是61-75华氏度/16-24摄氏度,40%-55%的湿度),你还需要考虑灭火.空气气流以及功率分配等因素.我曾经工作过的一家公司为了确保数

十条绿色IT最佳实践共建高效节能数据中心

在过去几年里,"绿色IT"几乎成为了节能硬件的同义词,这些硬件较之之前几代类似的设备或组件更加高效.节能.例如,这些节能硬件设备在设计时具备节能模式或配有高级电源管理技术,这样在设备停机或不工作时可以消耗少量的能源.还有一个例子就是更加智能的数据中心冷却技术,尽管数据中心具有高机架密度,但这一智能冷却技术同样可以减少数据中心的能源消耗.当然,包括服务器.存储设备.打印机.笔记本和台式机等在内的硬件设备目前也都进行了改进,以减少能源的消耗. 坦白说,全球范围内的ICT能源消耗曲线目前还处

Verizon公司数据中心故障导致捷蓝航空公司航班延误

日前,Verizon公司运营的数据中心电力中断,导致美国廉价航空捷蓝航空公司的客户的旅行延误了几个小时.该事件表明,该航空公司可能没有故障转移的措施. 1月14日,Verizon公司运营数据中心由于维修问题引起的停电,导致捷蓝航空的所有数据中心基础服务失效.捷蓝航空公司表示,当日上午约11:30出现滞留旅客问题,下午2:30滞留旅客开始办理登机手续,而所有的服务到了14日晚上8点都恢复. Verizon公司报告称,数据中心停电发生在当日上午11时37分,捷蓝航空在下午2:30可以正常运行其在线预