CIO如何测试你的DR/BC计划

对还没准备DR/BC计划的企业感到悲哀。适当的测试会弥补差距,消除IT和业务很多的不幸。

多年来,我在一定程度上自大的发表很多意见,以接近建立灾难恢复/业务持续性计划。我的建议包括,认清技术的修复和持续性仅仅是DR/BC计划应该包含的一部分。重要的是,在业务风险基础上排列计划里元素的优先级,以及只聚焦于没了它哪怕一小段时间你都没法生存的系统和过程。

因为我确定我的建议言之有理,你肯定做了所有的事。但现在,是时候测试你的DR/BC计划了。如何能用有意义的方式——帮你鉴别和解决差距,但又不会损伤企业(或你的名誉),测试该计划呢?

依我的经验,有4种可能的方法来测试一份DR/BC计划。如下:

1.考虑紧急情况,精神上想像一下你的响应。

2.意外引起紧急情况,在你从错误中恢复时触发该计划。

3.推迟你的测试,直到有真正紧急情况出现。用该紧急情况立即测试你的计划。

4.提出实际的、分阶段的方法,来测试你的DR/BC计划,而无需破坏企业(或你的名誉)。

经过一段艰辛的路程,我才了解前3条方法还有待改进。

方法#1有点像消防演习,但是告诉演习参加人员去想象逃离着火建筑并在指定地点集合——所有的一切在面临真实火灾时变得毫无意义。

方法#2有效,却在恢复时留下相当多的破坏。多年前,我们的数据库被完全锁死,只好关闭业务。我们死水一潭,只好启动DR/BC计划以修复系统。我们从中吸取了教训,知道了计划的差距,但却失去了很多信任——对所有企业做相似的测试,针对所有类型风险,我本应该有很多意外的故障时间。我人生的目标是意外停工为零。

方法#3有非常高的风险,因为我们的DR/BC计划经常有差距——有时是很重要的差距,所以等着一场真实的紧急情况来测试我们的计划,让我们公开面对暴露差距所带来的影响
DR/BC计划测试与日常维护看齐

接下来是方法#4

该方法要花费一些时间思考,因为我们想按逻辑步骤测试。那些步骤需要对齐整体的DR/BC计划和企业的需求。该方法也需要与企业非IT部门高水平的协调,因为你会测试人们每天使用的具体子系统和流程。

举个例子,测试电话系统运行中断的恢复,你需要包含客户支持、销售和后勤——即利用电话系统处理公司关键业务的任何人。

接着讲测试电话系统运行中断的例子,按步骤执行的测试计划也许与一些电话系统的计划保养一致----为何要中断系统超过所需要的次数?在你计划维护时段,涉及企业的其余人员以便参与的每人触发系统,然后启用DR/BC计划。随着电话打进来,你如何能查找出员工的身份?你的顾客如何联系你?你如何跟踪发货?为了测试,创建某种“战争房间”来跟踪DR/BC计划子集的执行情况,问题和差距,以及你发现的所有有意思的和令人不安的事物。充分利用每次可能的计划保养时段来测试你的计划。
为关键任务系统测试DR/BC计划

然而,如果系统和流程不会中断(或者不允许中断),即便是计划保养的时候,那又该怎么办?如果系统和流程是关键任务,很可能这些系统是有某种形式的冗余备份。既然那样,测试就使用系统的冗余备份版本。分割出系统支持企业的一部分,比如,呼叫中心的10%,把他们连接到你准备测试的冗余备份系统上。

记住,你要测试的是DR/BC计划,因此你需要一直创建整个系统流程的点到点使用的复制品。使用一部分业务以实现测试目标,而无需关掉整个企业系统。

最后一件事:你执行分阶段测试的开始几次,可能会有混乱、失调、恐慌和挫败。因此,我最后建议,为最糟的情况做好准备,然后当你观察企业的一部分从紧急情况中恢复时,带一些爆米花来吃——Keystone Kops电影与接下来要发生的古怪动作相比都显苍白。

本文转自d1net(转载)

时间: 2024-08-31 19:25:41

CIO如何测试你的DR/BC计划的相关文章

数据中心业务连续性和灾难恢复:计划和测试间的差距

您企业有制定相关计划吗?其是否具体呢? 虽然大部分企业都制定了相应的保持业务连续性或灾难恢复计划,但仍然有少数企业并没有制定这些计划.在一项针对数据中心决策者的调查中,商业分析公司451 Research发现, 82%的受访者所在企业制定了不同程度的灾难恢复计划,这也就意味着有近五分之一的企业并没有灾难恢复计划.随着现如今的各种安全风险的影响可能波及到几乎每个人,而灾难恢复计划解决方案也在被广泛使用,企业几乎没有任何借口不制定备灾计划. 而另一项由Forrester Research和灾难恢复杂

数据中心的业务连续性和灾难恢复计划

为了降低一系列的商业风险,包括那些数据中心的风险,许多组织建立了业务连续性(BC)计划和灾难恢复(DR)计划.这些计划一般侧重于特定的威胁,企业将持续实施这些计划,并对它们进行测试.为确保计划成功,企业需要做的更好.而确保数据中心正确工作是填补这些空白的一种方法. 企业有计划吗?计划具体吗? 尽管许多企业有业务连续性计划或灾难恢复计划,但有些企业却没有,或者他们就算是有计划但也过于笼统.通过对数据中心决策者的广泛调查,商业分析企业451研究公司发现,82%受访者表示拥有某种形式的灾难恢复(DR)

Azure Site Recovery:云灾难恢复与备份

类似于Azure Site Recovery这样的服务简化了云的备份和灾难恢复流程,但是小型的IT企业可更喜欢基于SaaS的备用选项. 备份和冗余一直都是公有云的两个常见使用场景,当然原因很简单.在辅助设备中租赁或备份空间很昂贵,特别是当有蓬勃发展的竞争行业开始致力于提供可租赁的IT基础设施时. 由于 Azure集成于它的Windows服务器,并且Windows工作负载的灵活的许可模型,使得Azure成为了以微软为中心的组织的常见的云服务选择.下面是在业务连续性(BD).灾难恢复(DR)和备份方

企业BC/DR勿忘IoT风险管理

从近期的新闻报道中我们会看到,伴随着大量智能化设备今天可以经由互联网与其它设施通讯,这使得人们在不经意间被窥探,从而可能会招致令人厌恶的结果.例如今天的汽车可以通过内置的智能化设备与网络连接,以实现远程控制. 这便是我们谈到的物联网(IoT),它连接起具有嵌入式智能和通讯功能的一切.本文将探讨这方面的发展将会对你所在的企业带来哪些影响,为何说需要建立起物联网风险管理策略,以及如何调整业务连续性(BC)和灾难恢复(DR)规划来应对这些问题. 先来看两种工具:风险评估(Risk Assessment

数据泄漏后CIO应急工作指南

伦敦,2008年12月11日凌晨5:30,黑莓手机的振动声打破了清晨的宁静.没有任何一个CIO愿意在这个时候听到这个声音,因为这意味着坏消息的来临. 首席安全官(CSO)为打扰道歉,但可以明显看出她的激动和不安.她刚刚被招来做数据审计的安全顾问吵醒.小组成员昨天晚上加班,在主要的客户数据库中发现了一些异常的数据.当她结结巴巴地说"这可能没什么"的时候,首席安全官也不能掩饰她的恐慌.但是你们双方都知道,如果她真的是这么想,你们现在也不会这么谈话. 自从HM税收和海关(HMRC)发生安全漏

CIO干什么

写完了CEO干什么,COO干什么这一对,又写了CTO干什么,今天给大家八八CIO干什么.咱们总是一对一对的写,以有对比性. 一.解读CIO三个字:首席信息官 1.什么叫信息:各种源都是信息.有本书叫<信息简史>,鼓声与文字.字典与密码.计算机二进制.DNA与化学元素.电报电话与宇宙微波,都是信息.对于CIO来说,企业产生的音频与视频.文字与文档.格式化信息与非结构化信息,都算CIO管理范围.管理就要收集和存储. 2.什么叫数据:数据是经过处理后的.规整的信息.信息有了抽象模型,不管这种规整是时

云环境失去控制 CIO借联合云有序管理

从许多方面来看,联合云(federated cloud)这个概念出乎意料.由于能够管理复杂的多个遗留环境,同时又可以整合基础架构,云计算正在迅速流行起来.但是随着各企业不断推进各自的云计算项目,许多CIO眼下在全力应对散乱的云计算环境,云计算环境似乎失去了控制. Metis Strategy公司的总裁Peter High说:"我们看到许多业务部门的人员自作主张,投资兴建私有云,而不是与CIO齐心协力,共同制定统一的计划,以便最有效地利用云计算.要是企业的许多不同部门独立地作出这些决策,那么综合起

合理管理云环境 CIO需知“联合云”

"我们看到许多业务部门的人员自作主张,投资兴建私有云,而不是与CIO齐心协力,共同制定统一的计划,以便最有效地利用云计算.要是企业的许多不同部门独立地作出这些决策,那么综合起来,你会发现这些决策可能大不相同." 我们也看到许多业务部门以各种方式搭上云计算潮流,却给CIO带来了棘手问题.毫无疑问,CIO们正在开始考虑联合云." 不妨考虑下列事实: 业务部门负责人一心想缩短产品上市时间,几乎是心血来潮地增加公共云应用服务.那样,主管们只要填写在线表单,出示企业信用卡,就可以在短短

简述测试在敏捷项目中的重要性

本文是一位测试专家对该文做出的回应. 就如同已经灭亡的皇室(国王已经消逝了,但是皇后却将永存),我们 的软件开发正传递着类似的呼声:"测试已死,我们再也不需要测试人员了!"但随之你会发现,哎呀,客户不满意,最后 又回到"测试万岁",但这次是更好,更完整,更有效的测试.就如同历史上众多的复辟王朝(我最喜欢皇后伊丽莎白1世 )一样,测试将强有力地帮助重新定义事物完成的方式以及它们的工作原理. 我打赌你现在正在想这不过 是自我吹嘘而已,但是,事情是这样发生的: 让我们讨论