数据中心遭破坏后如何恢复!!!

“数据中心”是互联网、云计算和大数据等产业的组成的重要基础设施,尽管许多企业为了降低一系列的商业风险,包括那些数据中心的风险,有业务连续性计划或灾难恢复计划,但有些企业却没有,或者他们就算是有计划但也过于笼统。当你在制定数据中心灾难恢复方案的时候,你的目标是为了保护公司在信息技术、通信和人员方面的投入。一旦遭到破坏,你的数据中心要么是完全不受影响要么就可能遭到彻底的毁坏。

通过对数据中心决策者的广泛调查,商业分析企业451研究公司发现,82%受访者表示拥有某种形式的灾难恢复(DR)计划,这意味着将近五分之一的企业的灾难恢复(DR)计划没有到位。研究发现,93%的组织拥有业务连续性计划(BCPs)。随着数据中心越来越面临着风险,如今的企业目前广泛使用灾难恢复解决方案,没有什么理由和借口不制定这些计划。

如何预防电气火灾这是企业必须要了解到的层面,首先在数据中心中添加一个声音报警和两个分解总线。在DR站点恢复了IR操作运营,而这也仅仅是针对最高级别的优先系统。有了便携式空调设备、临时通信和小型不间断供电设备,我们就可以恢复手机通讯。需要花费几个星期的时间才能替换大型交换机烧毁的部件,但是,我们还是需要了解哪里出现了故障,以便杜绝再次发生此类事故。

以下使我们所发现的六个故障点,然后我们在灾难恢复报告中做了记录。

隐患点一:空调设备尽管我们配备了多个空调设备,但是这些设备都公用一个接线总机。只有两个冗余单元和一组不间断供电设备(简称UPS)室单元的电源是分开的,设计师认为这种思路是合乎逻辑的,但是,实际上这是否定了备用的想法。我们还未能够正确设置总断路器上的跳闸电流,工程师们和承包商还没有调整好断路器。因此,当一台空调设备遇到问题时,主断路器就会跳闸现象,而不是单个支路断路器跳闸,这样会造成80%的冷却资源浪费。红外线扫描可以在接线总机中完成,但是只有一部分空调设备能够运行。未达到满载,设备也不会温度过高,因此,在测试过程中,我们也不会发现连接松动的现象。

第二个连线总机跟第一个连线总机一样,在同一个电器柜中,这样做的目的是满足财务预算,因此,两条电源总线是彼此相邻的状态。当一个发生爆炸时,也会同样引爆第二个,然后我们就什么也没有了。

隐患点二:数据中心设计在灾难恢复报告中,我们所要检查的另外一个项目就是数据中心设计。因为,一台发电机要供整个大楼使用,转换开关设置在地下室、接线总机的上方。并没有感知到即将发生的电源故障,但是被毁坏的接线总机却会阻止我们。共用一个发电机,我们本应该设置多个自动交换机提供数据中心内数据转换。用这种方式,如果将电源引入到数据中心中,且建筑内其他设备未受影响,那么,发电机便会开始工作,数据中心也会恢复紧急电源的使用。

我们反对电气室与数据中心相邻过近,因为,我们不希望电气涉及到计算环境中。我们曾忽视了这一点。电气室空调设备运行正常,数据中心中设备停止运行,此时,电气室会产生正压。当门打开时,爆炸所产生的热量和烟雾会随之发散。

隐患点三:烟雾探测器的问题早期的预警烟雾探测器会立即识别危险,而且还可以控制气体灭火,虽然其设置方式并非正确。因此,发现危险源时该探测器并不是发出警报,而是根据它感应到的烟雾,触发其释放气体的功能。烟雾颗粒同样可以污染其他正常运行设备的过滤器。唯一一个好消息是,与两个备用设备一样,电气室内的空调设备都在同一个电路上,因此,可以继续运行。没有制冷设备,UPS会迅速升温,然后关闭之前的计算机房。UPS应该走旁路,维护主机电源,但是,测试中我们却发现,旁路连接出现错误。只有一台空调设备,受到损害的可能性非常大。

隐患点四:优先等级UPS可以通过网络进行按序服务关系,但是,由于存在优先等级问题,这个想法一直也没有实现。我们还了解到,其实并不需要Emergency Power Off按钮,因此,也不会存在“高架活动地板”,不需要使用任何限制。工程师们指出了该行业一些非常危险的按钮,“因为每一个数据中心都会有一个危险按钮,”但是其中并不包含任何防护按钮,防止其被过早使用。

数据中心管理人员将会面临无数个挑战任务。我们要学会如何能够将这些实际过程中会接触到的任务进行优先等级排列。

隐患点五:DCIM报警当我问到,数据中心基础设施管理(简称DCIM)工具会提醒我主要警告,但是唯一的局限就是ASHRAE的允许温度,这个温度限制高于数据中心的实际冷却温度。由于冷却温度的设定是建立在之前的推荐温度值的基础上,而且要比推荐温度更低,因此,在还未出发报警之前就已经宣告失败了,我们还需要花费很多时间来进行救灾抢修。

DCIM还会显示出,我们所设置的10个空调设备中有8个都宣布设置失败,同时也陈述了失败的原因和影响因素,我们没有为DCIM系统购买机械设备模块,因此,当冷却单元装置失灵时并没有发出警告提示。这一点也会被记录到灾难恢复报告中。

隐患点六:缺乏训练和标准实际工作中,我们需要进行多次DCIM培训,GUI非常复杂,会提供许多详细的数据,使我们辨识起来非常困难。我们尝试重新对GUI进行修订,这样,我们可以看得更加清晰明了,但是,其可配置性却非常低。

IT应该包含在重要系统的选择范围内,在购买之前,进行同类测试,明确如何衡量其他软件。我们非常清楚地知道,这并不属于III级事故,正规认证将会披露这些漏洞。公司避免了许多承包备份和DR站点所引起的麻烦,因此,开发和测试计划的失败原因在于我们自己。作为灾难恢复报告中的一部分,我们花费了许多时间、非常认真的审阅了DR站点合同,并且根据审阅过程中发现的问题提出了一些改善建议。在制定DR计划时,我们也获得了一些帮助,通过转接操作,现在我们可以一年进行两次测验工作。

数据中心遭破坏后解决方案的实施

灾难恢复方案应该是灵活的、可扩展的,这样才能应对各种破坏场景。本文将提供数据中心的检查清单,并给出在灾难之后可以采取哪些行动的建议。这份清单将使得灾难恢复变得更为简单。当你在检查一次破坏性事件对你的数据中心产生的后果时,请务必参考这份数据中心的检查清单,或者是针对你自己的要求对它进行修改。当你完成了对于破坏情形的初步评估,并且对你的员工所处的位置满意之后,再开始根据灾难恢复方案采取行动。

制定数据中心灾难恢复计划时的若干假定一项数据中心灾难恢复计划仅仅关注于数据中心的设施和基础设备,比如它的物理位置、建设、安全、能源、环境系统以及它的工作人员。你不光要考虑到数据中心运作的部分,也要考虑到支持它工作的人。这意味着在制定DR方案时,要满足以下条件:

1、数据中心技术和管理人员,包括所有的班次

2、数据中心的建筑(比如,物理的基础设施、建筑物、出入口位置、提升地板的区域)

3、建筑的位置(比如,进入路线、离高速公路、火车线路、飞机场有多近,离燃油储存柜的距离)

4、电能的产生(比如,商业用电、备用电源系统)

5、电能保护(比如,接地及连结、避雷针、线路调节器、电涌抑制器)

6、环境(比如,供暖、通风备以及空调)

7、关键系统(比如,服务器、配电装置、VoIP系统、呼叫中心系统)

8、网络设备(比如,电缆、连接器、路由器、铜和光纤线路、电缆架)

9、安全(物理进入和信息安全)

10、工作空间(比如,办公室、会议室、办公小隔间、家居、照明)

11、防火(比如,火灾探测器、烟雾探测器、灭火器、FM200灭火系统)

12、建筑楼层和墙体(耐火墙、提升地板)

13、公共设施(比如,水、电、下水道、通信)

提升面对紧急情况时候的响应能力

作为灾备规划中及时响应的一部分要求,当我们在制定响应行动计划的时候,如果房屋是租赁的或者自有的,那么需要和房屋管理部门或者设施管理部门协商,除此之外,IT部门也需要沟通。制定好响应计划后,还需要复查一下和内部以及外部资源进行充分沟通以确保所有部门都万无一失。

在灾难恢复计划设计过程中需要考量的因素如下:1、和不同IT部门之间的关系,比如内部技术团队,应用团队和网络团队等。以确保所有日常使用数据中心设施的团队部门全部都在灾难响应流程里。

2、与外部股票持有者之间的关系,比如厂商以及服务提供商。

3、如果公司油气田办公室的话,和其他办公室之间的关系特需要考虑进去,因为他们也可能会是灾难恢复规划中的一部分。比如说要提高另外的数据中心机房等。

4、和架构相关的文档,比如说建设规划,楼面规划,系统视图,网络拓扑以及设备配置信息等。

在灾难响应的制定中需要考虑到以下的几个方面:

1、管理层对数据中心最有威胁的几个方面的认识,比如火灾、人为操作不当、断电、系统故障和安全问题。有可能管理层开始做的预想不符合实情,但需要在后面快速做出正确的改变。

2、管理层需要意识到数据中心里最容易出问题的环节,比如说,陈旧的备份电力保障系统。

3、之前数据中心故障的处理结果,比如,如何应对情况的以及我们从中学到了些什么。

4、管理层对数据中心宕机能接受的最长时间是多少。

5、行业现有的应对数据中心宕机的准则是怎样的。

6、从其他数据中心灾难恢复经验中学到的。

7、受训过的数据中心紧急响应团队处理突发事件的能力。

8、主数据中心和备用数据中心服务提供商的紧急响应能力以及两个数据本身的紧急响应能力。如果之前使用过,那么当时用的时候遇到过问题吗?此外还需要了解服务的成本以及服务合同目前的情况。

本文作者:佚名

来源:51CTO

时间: 2024-10-05 20:15:37

数据中心遭破坏后如何恢复!!!的相关文章

MySQL数据库的自动备份与数据库被破坏后的恢复

当数据库服务器建立好以后,我们首先要做的不是考虑要在这个支持数据库的服务器运行哪些受MySQL提携的程序,而是当数据库遭到破坏后,怎样安然恢复到最后一次正常的状态,使得数据的损失达到最小. 或者说,仅仅是数据库服务器的建立,只能说明它能做些什么,并不代表它能稳定的做些什么.灾难恢复的效率及全面性,也是系统的稳定性的一个准因素,尤其对于一个服务器系统. 这一节,介绍数据库自动备份以及数据库被破坏后的恢复的方法.在这里,我们使用mysqlhotcopy,并且定义一段Shell脚本来实现数据库的自动备

MySQL 自动备份与数据库被破坏后的恢复方法第1/2页_Mysql

一.前言: 当数据库服务器建立好以后,我们首先要做的不是考虑要在这个支持数据库的服务器运行哪些受MySQL提携的程序,而是当数据库遭到破坏后,怎样安然恢复到最后一次正常的状态,使得数据的损失达到最小. 或者说,仅仅是数据库服务器的建立,只能说明它能做些什么,并不代表它能稳定的做些什么.灾难恢复的效率及全面性,也是系统的稳定性的一个准因素,尤其对于一个服务器系统. 这一节,介绍数据库自动备份以及数据库被破坏后的恢复的方法.在这里,我们使用mysqlhotcopy,并且定义一段Shell脚本来实现数

纽约时报抨击数据中心 遭业内人士批评

最近,在美国<纽约时报>上刊登了一篇名为"云工厂"的文章,作者James Glanz把数据中心比喻成吞噬能源.浪费生产力的巨兽,引发了数据中心行业人士的愤怒. 他的文章以"能源.污染和网络"为在线标题,写道"大部分数据中心在设计上就是以十分不平衡的方式小号大量能源,很多报告都证实了这一点.很多网络公司夜以继日压榨机房设备的极限,无视实际的计算需求.http://www.aliyun.com/zixun/aggregation/13056.htm

管理超大规模数据中心的五个实用经验

数据中心扩大规模时,大多数IT团队会寻求这样一种管理控制台:能够提供一种直观.全面的视图,从而简化日常的管理任务.IT团队在管理超大规模的数据中心时,还学会了寻找这样一种控制台:可以调用如今的数据中心平台带来的细粒度数据.这包括每一个服务器.机架或整屋子计算设备的实时用电情况和温度. 第一个经验:别忽视了"小"数据. 整合能源管理中间件的管理控制台可以把这些数据中心的数据点聚合到一览无遗的热相图和电力图,并将用于趋势分析和容量规划的所有数据记入日志.之后可以充分利用这些数据,用于各种削

关于新的数据中心设计的考虑指标因素

了解数据中心设计中的三大最重要的因素,有助于帮助您企业更顺利的完成数据中心设计的起草过程.而将本文作为正确确定您企业数据中心业务需求的参考借鉴指南,则有助于您企业从一开始就得以最大限度地提高整体数据中心的性能,稍后的避免重大升级. 几大基本因素推动了数据中心的设计要求和成本.在制定预算和草拟数据中心的设计蓝图之前,需要对这几大基本因素有相当正确的把握.而如果不这样做的话,很可能会导致数据中心正式投入运营后的相关问题. 在数据中心已经投入运行后才来修复错误是相当具有挑战性的,而且其成本代价昂贵,在

亲历火灾:数据中心灾难恢复启示录

作者注:该故事基于真实事件.每个细节都来自我的学生和我获得的一手事实. 凌晨三点,我的手机收到一封告警.自从我们安装了新的数据中心基础设施管理系统后,每晚我都能收到十倍以上的告警,但都不是很严重的问题.但这次不同,我们主数据中心的温度虽然都在ASHRAE的允许温度范围内--但高于公司运营限制,而且还在不断上升. 财务部门在有人确定既定标准与设计之前就决定了我们新数据中心的预算,我们不得不经常削减其中的灾难恢复策略.我曾坚持要求额外的空调以及模块化的不间断电源系统(UPS)冗余.除了这些,设计师认

《思科绿色数据中心建设与管理》——1.2 绿色化的原因

1.2 绿色化的原因 思科绿色数据中心建设与管理一家关注环境且通过实际行动证明其关注环境的公司会拥有值得尊敬的社会意识.然而,在竞争激烈的市场中,许多只是希望"做对自己有好处的事"的商业组织是无法实践绿色方法的.实现绿色必须评估它对公司的影响,特别是对公司关键方面的影响. 实现绿色数据中心要求进行更细致的审查,因为这些设施在业务正常运营方面起到了至关重要的作用.考虑一个绿色数据中心时的相关因素包括以下几个. 功能和可用性之间的平衡:绿色数据中心的容量(如电源.冷却和连接性)比起其他服务

你的数据中心该建立临时灾备计划了!

台风.飓风.海啸以及远超机房承受能力的洪水,这些自然灾害使得保持数据稳定的工作变得极具挑战性.   自然的力量在有些时候显得异常强大并且难以控制,比如2005年肆虐横行美国东南各州的katrina飓风,在自然界的超能力面前,人类的力量显得不值一提.如果在灾害中电源及数据连接同时损坏,这使得确保足够的正常运行时间彻底沦为空谈--再说,这种时候谁还会指望维护人员来干活呢?在这种情况之下,如果数据中心实在无法保证全天候的设备运作(例如主机托管及代管业务),那么在可预警的灾害袭来之前主动断电也许是更好的

苹果拟在爱尔兰建数据中心 当地居民抗议

由于当地居民向爱尔兰政府提交了正式起诉状,苹果规划的在爱尔兰建立首个数据中心的计划可能会向后推迟了. 当地规划部门正在审核居民们提交的这份针对苹果数据中心的起诉状. 一名当地政务会委员称,在2015年4月,苹果就已提交了其数据中心规划申请书,希望在去年年底前动工建造一个数据中心.该数据中心将耗资6.44亿英镑,占地500英亩.但是,当地政务会可能要到今年暑期才能作出决定. 这项申请已被爱尔兰政府暂时搁置.自从戈尔韦政务会批准苹果建造数据中心的规划后,爱尔兰政府接到了很多投诉.目前,它正在审查这些