数据中心里的应急关机技术

数据中心需要全年不休地运转,无时无刻都在对外提供各种应用服务。数据中心里有大量的电子设备,也和人一样是需要休息的,不然迟早都会出现这样那样的问题,其中应急关机就是数据中心自我保护的一种方式。显然在关机的前面增加了一个修饰词“应急”和关机的意义就完全不同了,应急关机必然不是关机那样关闭一下按钮或者拔掉电源那么简单。前面也说了数据中心是全年不休地工作,对数据中心内的设备进行关机,需要考虑这样的操作对整个数据中心的业务影响,是否在关机之前做足了准备工作、是否制定了详细的关机预案、是否有回退机制等等,这绝非是开关一下电源那么简单。下面就来详细说一说数据中心里的应急关机。

应急关机是提前有周密计划来关闭部分运行设备的方案。应急关机作为应急响应过程的处置之一,是每个数据中心都必须考虑的问题,在很多特定的场合下,数据中心就需要应急关机。比如:由于数据中心自身存在的缺陷被暴露,或者数据中心所在地区出现了地震、火灾等灾害,使得数据中心可能受到外界的严重威胁,使得数据中心数据受损或者被破坏,在不得已的情况下就需要启动应急关机,临时关闭部分甚至全部的对外业务,保护数据中心不受到损坏;数据中心里的电子设备特别多,这些设备或多或少都存在一些问题,这世界上没有一点BUG都没有的软件,认为自己使用的设备没有问题,只不过是还没有碰到BUG 而已,所以一旦数据中心遇到这些设备BUG,很多时候就要对设备进行软件升级,补丁搞不定就需要升级软件版本,可很多设备还无法做到不重启升级软件,这就需要应急关机,对设备进行关机重启;还有数据中心里的服务器、存储等设备运行久了,长时间运行不重启会累积大量的内存垃圾,周期性地对这些设备进行主动重启,可以提升设备的运行效率,而且主动重启设备还可以规避一些BUG暴露出来,避免BUG导致设备运行异常而对数据中心业务造成影响。如此看来,应急关机是数据中心运行过程中不可缺少的重要一环,每个数据中心都要经历的一个方案,是对数据中心运行的一种主动保护。

应急关机需要做好三方面的准备工作,才能通过关机达到预期效果。在一些紧急情况下,有应急关机方案,往往可以使数据中心免遭一劫。首先,关机前要做好关机的流程。在数据中心里,应用与应用、应用与设备、设备与设备之间普遍存在着依赖关系,一定要按照固定的关机顺序来执行,避免应急关机给数据中心带来伤害。比如:在计划关闭网络设备之前,应该先将各种数据库服务、存储服务、支付系统等重要应用切走或者关闭,然后关闭外部访问入口、关闭计算节点、管理节点等,避免直接关机网络设备对正在提供服务的系统紊乱或者数据丢失,做好这些步骤后再去关闭网络设备,一般步骤应该是先关闭应用层服务、然后底层数据传输设备,最后是物理链路,越上层的服务越应该先关机,在应急关机前要将操作的步骤固化下来,然后按照步骤依次执行。与此同时,对于每个操作步骤的耗时要进行预估,确定各个环节花费的时间,控制好应急关机的各环节,一旦与预期不符,还要启动相应的回退或者规避方案。既然叫应急关机,更多的时候关机是突发、临时执行的,难免会出现执行异常的现象,与原有的预计结果不符,这时就需要根据实际情况灵活应对。在应急关机之前应该准备好备件,对关键设备进行备份,将部分配置提前做好,一旦出现异常情况时直接用备件进行替换。在无法避免损失的情况下,一切以关键数据的划分结果为依据进行取舍,这种情况下考验着数据中心人员的智慧。还有关机的时长也是一项必须要考虑的重要因素。很多时候在关机步骤执行完毕之后,往往需要密切关注数据中心外部情况,确定再次开机的时机,也有的时候应急关机是很快又进行开机了,这个关机的时间长短要根据出现紧急情况的具体情况,经过评估来确认关机时长。其次,在关机执行过程中,每一个步骤执行完毕后,都需要对执行结果进行确认,同时与原有预期进行对比,看是否达到预期结果。当发现与设定的情况不符,或者已经出现了失控局面,需要即刻启用回退方案,恢复原有运行状态。最后,应急关机后,根据设定的关机时长,还需要进行开机。开机后,需要对数据中心运行情况进行密切关注,不是设备都启动起来就完事儿了,很多时候评估数据中心是否运行正常、稳定,往往需要观察数天,一旦发现依然存在问题或者风险,还可能需要二次应急关机。

从应急关机的三大部分,在关机前要做的工作最多,也最为重要,这也正是应急关机的重要体现。当应急关机策略制定完成后,应该定期组织应急演练,发现缺陷马上进行修复,确保最终应急关机方案没有漏洞,应急关机的方案也不是一成不变的,随着时间的推移和人员的变更,还需要不断进行修改。这样周期性地组织应急关机的演练非常重要,只有这样才能发现方案中的不足。

任何一个数据中心都不愿意出现需要应急关机的情况,但是一旦必须要做出关机决定时,就一定要提前做好充足准备,有详细的应急关机预案,以免在应急关机时,人员都手忙脚乱,毫无组织,乱作一团,这样的应急关机往往会给数据中心带来严重损失,起不到保护数据中心的目的。

作者:何妍 

来源:51CTO

时间: 2024-10-31 18:27:39

数据中心里的应急关机技术的相关文章

数据中心里的背板空调技术

近几年,数据中心向着大规模.集成化.能耗高的方向快速发展.有调查显示,近十年来,服务器的功耗增加了15倍,现在一个机架的功耗在20-30KW.网络设备也是越做越大,有的大型网络设备要几个人才能抬得动,重达数百公斤,有的设备比人还高,这样的设备发热量自然比较高.这些高性能设备造成数据中心内部的发热量急剧增加,给数据中心散热带来了严峻挑战,随着这些高发热的设备进入,数据中心内的温度持续升高,局部温度也高低不一,为了保持数据中心恒温恒湿的环境,涌现出了很多数据中心空调技术,有的从节能的角度出发,有的从

数据中心里的柔性网络技术

网络是数据中心最为重要的组成部分之一.可以说没有网络,数据中心就无法称为数据中心,数据中心也就无从谈起.正是因为网络的重要性,很少有数据中心愿意主动去改变它,即便明知它有着这样那样的缺点,可还是选择了接受和沉默.然而,随着云计算.大数据.虚拟化技术的兴起并成为数据中心未来主流的技术基石,网络依然是阻碍技术发展的绊脚石,数据中心网络已经到了不得不做出改变的时候了,网络再不进行改变,云计算.大数据.虚拟化等技术就无法在数据中心部署,这大大影响到了数据中心的运营利润.在这样的背景下,数据中心网络才开始

在数据中心里SDN技术发展现状

SDN技术相信大家都已不陌生,很多人甚至都已耳朵听出了老茧.经过一段时间的争议期后,SDN终于得到了部分数据中心市场的认可,相关市场规模开始不断扩大,预计2015年SDN交换机和控制器的市场规模将超过14亿美元,而到了2019年,这一数字将达到120亿美元.SDN技术逐渐得到了数据中心市场的认可,为数据中心的发展带来了勃勃生机,这与几年前SDN技术刚提出来时迥然不同,很多技术保守派不再无视SDN技术的存在,开始接受.甚至喜欢上SDN技术,这样市场机会就出来了.相比几年前空谈SDN技术,现在已经开

数据中心网中网技术漫谈

网络是数据中心最重要的组成部分,没有网络,就没有数据中心,这是将所有设备互连互通的唯一纽带.网络要进行工作依仗的是各种各样的协议,经过这四十多年的发展,很多网络协议已不适应现在数据中心的需要.不过,经过这么多年形成的协议标准已难以改变,这就衍生出来很多新的协议类型.这些协议不是凭空臆想出来的,而是和原始协议都有着紧密联系,与原始网络协议有着千丝万缕的联系.对原有协议直接进行修改当然不行,聪明的人类想到了很多办法,于是就有了网中网的协议.为何叫网中网协议?就是在不改变原有协议的基础上,再增加一部分

数据中心里常用的四种交换机设备介绍

随着数据中心带宽越来越高,传统的网线和电缆连接速率已经满足不了需求.现在,在数据中心里已经很难寻觅到网线踪影,光纤成为数据中心唯一的互连方式.光纤互连不仅传输距离长,转发速率也可以达到40G/100G的高速带宽,这些都是网线所不具备的.采用光纤互连的网络要转发以太报文,就要采用光交换技术.光交换技术也是一种光纤通信技术,是指不经过任何光/电转换,在光域里直接将输入光信号交换到不同的输出端,光交换无需在光纤传输线路和交换机之间设置光端机进行光/电和电/光变换.在交换过程中,能充分发挥光信号的高速特

透视数据中心中的25G、50G和100G技术

企业和云级网络的数据中心中各种"G"比比皆是,是时候搞清楚他们的性能了. 云计算的兴起和数据中心的扩展推动着最新的以太网速度升级,而基于云技术的大数据也已然增加了运营商的工作负载.为满足这一需求,数据中心通过增加与现有基础设施并行的带宽能力实现扩展.预期中25G和100G以太网部署的快速增长就是这一趋势的明证. 为了能够处理不断增大的数据负载,业界最大规模的远距离云企业已纷纷与他们核心网络的数据中心运营商一起,共同转向使用 100G以太网架构.不过大多数运营商认为,对服务器连接来说,1

数据中心光模块技术发展方向

随着云计算.大数据等新技术商用,数据中心流量和带宽成指数级增长,根据思科预测,全球数据中心IP流量将从2015年的每年4.7ZB增长到2020年每年15.3ZB,年复合增长率约为27%.而根据LightCounting预测,到2019年数据中心光模块销量将超过5000万只,市场规模有望在2021年达到49亿美元,这将是光模块厂商的一个巨大的机遇.同时我们也可以看到光模块在数据中心的应用与传统电信传输市场有一些区别,在这里简单的聊一下数据中心光模块技术发展方向. 目前市场上对数据中心光模块的要求可

车辆大数据在引领平安城市建设发展中的作用及关键技术

"让尊重事实.推崇理性.强调精确.注重细节的理念,贯穿公共安全工作的全过程.善于从多源的.分散的.碎片化的大数据中找到规律."--孟建柱 平安城市系统中车辆大数据的发展背景 随着经济快速发展,城市机动车保有量持续增加,不仅加大了交通管理的难度,而且涉车涉驾的案件比例也不断上升,特别是盗抢机动车辆.机动车肇事逃逸以及涉车类刑事案件,严重影响了社会治安状况,损害了人民群众利益.而随着平安城市建设的扩大深入和资源整合,公安通过自建卡口电警系统加强了车辆管控,掌握了大量的车辆卡口数据和图片.

Java服务化系统线上应急和技术攻关,你必须掌握的Linux命令

上一篇文章<Java服务化系统线上应急和技术攻关,你必须拥有的那些应用层脚本和Java虚拟机命令>介绍了笔者在互联网公司里线上应急和技术攻关过程中积累的应用层脚本和Java虚拟机命令,这些脚本和命令在发现问题和定位问题的过程中起到关键作用,然而,经常会遇到一些深层次的问题,仅仅通过应用层和JVM虚拟机层的信息无法定位问题和解决问题,这时需要深入研究系统级的各种参数和信息,才能确定问题的根源原因,例如:网络超时.机器负载过高.JVM OOM.JVM和内核Bug等,这篇文章介绍那些重要的Linux