随着社会发展和科技进步, 数据中心面临的风险和威胁越来越大,一旦数据中心因为突发灾难造成关键业务数据丢失或信息系统故障,将严重影响企业业务的正常运营,甚至威胁到国家安全 。而包含有大量电子设备的数据中心各系统在运行过程中不可避免地都会发生因故障而失效的时候。硬件故障、软件错误、人工操作失误甚至对系统的恶意破坏,这些都可能导致系统运行的非正常中断,影响系统中数据的正确性或破坏系统的数据库,使部分甚至全部数据丢失。所以如何保证数据中心的业务连续运营是数据中心管理者们首先要考虑的重要问题。
数据中心保持业务连续最大的威胁不是来自于火灾、地震等小概率、大影响的灾难, 更多地受到诸如人为错误、流程缺陷等事件的威胁。这些威胁时刻潜伏在企业的周围, 随时一触即发,会影响数据中心的业务连续性, 使企业造成重大损失。
今年以来,数据中心故障引发的业务故障触目惊心:
2013年1月31日,亚马逊Amazon.com主页出故障,一小时的中断时间让该公司错失了近500万美元的收入;2013年1月28日,Facebook网站业务中断;
2013年2月1-2,微软的Office 365编辑套件和Outlook.com邮件服务陆续出现了业务中断;
2013年6月3日,Twitter服务业务中断,Twitter用户无法访问该服务来发送或读取内容;
2013年8月19日,因数据中心网络硬件出现故障,部分微信用户发现无法收发信息,还有人的微信自动退回至软件登录界面后发现无法再登录。
这些大型的互联网数据中心都会频繁出现业务中断的故障,其它的数据中心就更是故障不断了。当然这些企业也知道业务持续中断意味着什么,可有时却又在数据中心故障面前显得无能为力。
表1列出了各个行业数据中心中断一个小时造成的损失预估,可见损失是要按分钟来计算的,数据中心无法提供服务就意味着业务的减少,时间和金钱都将受损,业务连续性对数据中心来说重要性不言而喻。在当今信息高速发展的社会,人们的工作、生活高度依赖于各类信息的传递与管理。而这些信息处理的背后都有数据中心在高效运转,很难想象如果没有数据中心这个世界怎能运转。人们越是依赖于数据中心,数据中心对人们就越重要。而提供稳定、持续的服务,这是人们对数据中心的基本要求。现实中这种要求却很难做到,这是因为数据中心是一个信息技术高度集中的场所,技术实现复杂,备份技术很多但要做到全部备份成本就太高,并且过度的备份也增加了系统运行的复杂性,反而带来了整体运行的不稳定。
表1:数据中心业务中断造成的损失预估表
那么如何才能有效保证数据中心的业务连续性?
要保持数据中心业务的长期连续性困难重重,因为保持数据中心业务连续是一个长期、全面、持续完善的过程。在完成数据中心建设之后,还应考虑如何确定业务需求和进行应急响应等问题,为保证数据中心业务连续性,需要从组织和团队、IT技术、基础设施、业务恢复到公共关系管理等各个方面做工作。这些工作涉还可能涉及机构高管层、科技、财务、审计等各个部门,因此为保障数据中心业务的连续性需要全员参与,是一个复杂的即涉及技术又涵盖管理的综合问题。
关于如何保持业务的连续性问题已经引起了各类专家的热议,对于数据中心更是需要保持业务的连续性。业务连续性管理已经演变成了一门管理学科,在数据中心中得到了越来越多的应用。所谓业务连续性管理,即Business Continuity Management,简称BCM.这个概念最早脱胎于传统的IT备份与容灾恢复计划,业务连续性管理是一个一体化的管理过程,通过这一过程,可以识别威胁组织机构的潜在风险,并提供一个指导性框架来建立组织机构的恢复能力和有效应急响应能力,从而保护利益相关者的资产,组织机构的信誉、品牌及其创造价值的活动。BCM的前身是灾难恢复(DR)和业务连续计划(BCP),真正受到重视是在20世纪90年代,尤其是2001年美国911恐怖事件之后,开始了快速发展。作为一个相对较新的概念,业务连续性管理相关工作在中国刚刚起步,在2003年SARS期间得到重视,并在2008年汶川地震时灾后出列方面取得了成就。目前,BCM已经在越来越多的企业中得到普及,尤其是数据中心领域。大约有85%的全球性企业实施了灾难恢复(DR)计划,但是仅有15%具备了完善的业务连续性计划(BCM),即仅有少数企业的灾难恢复计划是以保障业务连续性为目标。如果没有一个完善并具可操作的连续性计划,是无法确保达到灾备恢复预期目标的。
BCM主要用于解决数据中心业务连续性两个方面的问题:
(1) 高可用性
是指提供在数据中心部分故障的情况下,仍能提供继续访问应用的能力。不论这个故障是业务流程、物理设施、IT软/硬件的故障。
(2) 灾难恢复
是指当灾难破坏数据中心时在不同地点、不同硬件设备上恢复数据的能力。上述两个方面不是相互孤立的,而是相互关联、有交叉的。为保证数据中心的业务连续性,高可用性和灾难恢复要映射到数据中心的各个层面,从用户终端到服务器、 存储器、甚至包括机房环境。国际标准ISO20000和ISO27001建立了规范的IT服务和信息安全的管理体系,在ISO20000的框架内,就包含了可持续性管理流程的内容。
持续性管理具有以下活动和过程:风险和灾难规避评估、确定整体恢复策略、确定与建设业务持续性计划、设计开发持续性和灾备预案、预案演练、预案维护。通过这些活动可以将数据中心业务中断的风险有效降低。
数据中心的管理者已经意识到了数据中心业务连续性的重要性,关键是要采取有效的BCM管理,确保数据中心不再发生业务中断。
本文作者:佚名
来源:51CTO