1 需求
某保险公司(以下简称客户)向EMC公司提出建立容灾方案的想法,由于客户对容灾技术了解不多,因此此方案是根据其异地存在办公设施的条件提出异地容灾的初步设想。容灾技术和方案的设计极其复杂,客户不能提供具体需求的情况较为普遍。了解客户的初步设想后,EMC公司根据以往经过多次验证的经验和成熟的业务连续性服务集成方法论,帮助客户从评估现有服务水平入手,定义业务需求,调研高可用性和恢复技术,设计基础架构,进行技术测试和实施,开发业务连续性技术,实施容灾测试演习,建立更新与维护制度,建立资源管理、改进与考评体系,使容灾方案真正做到"养兵千日,用兵一时"。
2方案
EMC在业务连续性服务方面有着一套完整的实施方法论,称作业务连续性服务集成方法论(Business Continuity Solution Integration,简称BCSI)。它是EMC通过对多年实施业务连续性和容灾服务的所积累的经验进行总结和提炼,开发出来的业务连续性实施方法论模型,该实施方法在全球众多相关项目中广为使用并得到验证。这一方法论,包括规划(Plan)、建立(Build)、和管理(Manage)三个阶段、十个步骤的咨询和技术服务。限于篇幅,在此不容赘述。
根据客户的容灾地点的选择考虑范围,EMC针对生产站点和容灾站点之间的距离推荐三种技术方案:
第一类:北京、成都,距离在1000公里以上
EMC推荐使用SRDF SAR单跳数据复制方案,该方案对于链路的带宽没有具体要求,可以满足任何链路带宽和RPO需求。
第二类:南京、杭州、苏州等地,距离在3个小时车程以内
EMC推荐使用SRDF异步数据复制方案,如果链路带宽允许的话,可以考虑对最关键的业务数据实施同步复制保护。如果链路带宽比较低,也可以考虑SRDF SAR单跳数据复制模式。
第三类:同城(外高桥、张江、漕河径)
EMC推荐使用SRDF同步数据复制方案,根据灾备地点和目前生产中心的之间的物理距离,我们建议在同城的模式下,可以采用SRDF同步方式,对核心业务数据采用同步保护模式。
2.1 同城同步方案
方案优势:
同步模式可以确保两边核心业务数据的完全一致,而且在回切(Fail Back)时,可以透明的回切,无需等待灾备端数据的回拷完毕。换句话讲,用户无需任何专门的停机时间,即可完成生产中心的启动,真正实现用户业务系统的连续性。这是其它厂商无法实现的功能。用户可以利用该功能,非常轻松的实现灾备演练和日常计划性停机维护等工作。结合本地数据复制软件TimeFinder,用户可以克隆生产数据或对生产数据执行快照。用户可以将该份数据作为开发、测试的源数据或数据仓库系统的数据挖掘和抽样等功能。另外,用户可以在灾备端对灾备磁盘执行同样的功能,克隆数据可以作为灾备演练的环境。快照数据可以作为链路中断等故障时,需要数据再同步时,可以对灾备数据实现二次保护。
在本地生产中心配置虚拟磁盘库,可以将每日的数据备份直接备份至磁盘库,然后利用备份软件将备份数据自动克隆至灾备中心的磁带库,实现磁带数据的异地保留。同时,基于磁盘备份可以大大提高备份和恢复效率,极大缩短日常的备份窗口。
2.2城域容灾
根据灾备地点和目前生产中心的之间的物理距离,我们建议在城域的模式下,对核心业务数据采用同步/异步保护模式。如果站点距离在一百公里之内,而且链路仍然采用光纤链路的话,考虑光纤信号的时延问题,可以对部分核心业务数据采用同步数据模式,其他数据采用异步模式。如果采用基于IP的数据链路,则最好采用异步方式。
方案优势:
同步模式可以确保两边核心业务数据的完全一致,而且在回切(Fail Back)时,可以透明的回切,无需等待灾备端数据的回拷完毕。换句话讲,用户无需任何专门的停机时间,即可完成生产中心的启动,真正实现用户业务系统的连续性。这是其它厂商无法实现的功能。用户可以利用该功能,非常轻松的实现灾备演练和日常计划性停机维护等工作。
异步模式可以节约带宽的开销和不会对应用系统的性能造成任何的影响。当应用系统由于业务高峰出现性能下降的情况,可以将同步模式切换到异步模式,彻底消除数据复制对性能的影响。可以利用DMX系列内置压缩和负载均衡的GigaE卡,支持IP链路,降低用户的链路投资。异步模式可以确保用户的RPO时间维持在30秒钟之内,提高用户系统的业务连续性。同时,SRDF异步能够根据链路利用状况,自动缩短RPO的时间,换言之,也就是最大限度利用线路的带宽。
结合本地数据复制软件TimeFinder,用户可以克隆生产数据或对生产数据执行快照。用户可以将该份数据作为开发、测试的源数据或数据仓库系统的数据挖掘和抽样等功能。另外,用户可以在灾备端对灾备磁盘执行同样的功能,克隆数据可以作为灾备演练的环境。快照数据可以作为链路中断等故障时,需要数据再同步时,可以对灾备数据实现二次保护。
2.3 异地容灾
由于考虑到异地之间的距离比较长,用户租用高带宽的链路成本很高,我们建议采用 EMC特有的Single HOP(单跳)的方式,可以满足用户在超常距离和有限带宽条件下的RPO和RTO指标。EMCSingle HOP方案主要是利用了SRDF SAR和TimeFinder相结合,实现生产变更数据的批量复制。
技术描述:首先用户需要在生产端配置需要复制数据容量两倍的存储空间,其中一块为日常的生产数据,另一块为生产数据的镜像(业务连续性卷BCV)。我们假设用户的RPO为20分钟,每二十分钟由生产数据将变化量复制到本地的镜像磁盘(业务连续性卷BCV),复制完毕后,再利用 SRDF自适应复制功能,将该数据通过链路复制到远端,该数据可以在20分钟的复制周期内传送完毕。当然,如果数据无法在20分钟内传送完毕,下一个复制周期可以自动延长,完全取决于数据复制量的大小和带宽。所以,该方案非常适合用户超长距离和低带宽的环境。
在该方案中,灾备端必须配置TimeFinder软件,它可以保证在每个复制周期的开始之前,对灾备端的数据提供保护,确保在复制期间由于线路不稳定等故障时,可以确保上一个复制周期数据的完整性和一致性。
3 容灾演习规划和实施
EMC业务连续性服务集成方法论将整个客户服务过程分为规划(Plan)、建立(Build)、和管理(Manage)三个阶段,并细化为以下十个步骤:
1. 评估当前的服务水平
2. 定义业务需求
3. 评估可用性和恢复技术
4. 基础架构设计
5. 实施规划
6. 测试及实施
7. 开发恢复及切换计划
8. 集成测试和演习
9. 业务连续性更新
10. 资源管理、改进及衡量
其中,EMC最具特色的容灾演习。EMC是目前业界唯一一家真正能够提供容灾演习的厂商。在本方案中,EMC将协助客户制定容灾演习计划,实施容灾桌面演练,并参与、协助和指导真实容灾演习。
具体内容包括:
协助制定容灾演习规划。
编写演习计划并提供模板。
协助并指导应急计划的编写。
参与并指导一次真实容灾演习,对容灾演习进行监督和记录。
发现演习中不符合规范的问题,并提出改进建议。
发现演习中不完善的问题,并提出对BCP的相应的修改建议。
编写演习报告并进行汇报。
4 总结
EMC在容灾方面拥有业界最广泛、最深入的技术和最强的产品阵容。EMC拥有多年实施业务连续性和容灾服务的经验积累,在此基础上开发出来的业务连续性实施方法论模型,业已在全球众多相关项目中广为使用并得到验证。
另外,EMC方案的特点是注重项目管理。项目管理是项目成功的最关键环节之一,对于本项目的两个最重要的工作内容之一(另外,最重要的内容是项目方案回顾和详细方案设计),我们的项目管理团队,根据客户的灾备总体设计业务目标和技术方案,根据项目的进展安排,制订详细的项目管理计划,通过沟通等项目管理技术手段,保证项目能够按照我们的预定目标执行,在规定的时间内,保质保量地完成客户的灾备项目。由于篇幅有限,本方案删去大量内容,还请谅解。