摘要:从根本上说,灾难恢复计划的过程并不是以技术为中心的。所以,当企业在发生计划外的停运之后,虚拟化要如何才能使其更快、更容易的恢复服务呢?现如今,虚拟化已经彻底改变了我们在数据中心部署应用程序的方式,而这种改变甚至可以说也已然延伸到了灾难恢复领域。
现如今,虚拟化已经彻底改变了我们在数据中心部署应用程序的方式,而这种改变甚至可以说也已然延伸到了灾难恢复领域。
以前,需要花费数周或数月的时间来完成的服务器的配置,现在转变成了仅仅在几分钟内就能自动完成的任务。虚拟化通过诸如快照、vMotion和HA / FT(高可用性/容错)等功能,为企业用户提供了敏捷性、灵活性和更大的弹性。
与此同时,企业的灾难恢复也发生了转变,在物理服务器环境中,从一次计划外停运的恢复的过程需要将故障转移到一处复制的主环境或具备相同的硬件和操作系统,以便让备份可以恢复。
有人声称,虚拟化摒弃了许多这样的过程,使企业的灾难恢复得以更容易和更简单的部署,但到底到了什么程度了呢?
在这篇文章中,我们将分析并研究灾难恢复规划、配置过程的每个阶段,评估虚拟化在多大程度上可以提供帮助。
物理到虚拟的比较
服务器虚拟化是用来整合和简化应用程序工作负载的一款相当棒的工具。由于硬件往往未被充分利用——通常都是每款操作系统都只安装了一款单一的应用程序——而虚拟化则为每台服务器在提供了隔离和管理效益等好处的同时,使得该物理资产变得更有效。
虚拟服务器是虚拟磁盘文件的组合,其代表了物理磁盘,再加上处理器、内存和其他附属设备的配置信息。这使得虚拟服务器/或虚拟机(VM)成为高度便携的,并允许虚拟化提供诸如高可用性(在硬件发生故障后,将一台虚拟机安置到另一台服务器之上)和容错性(如果硬件出现故障,运行一个虚拟机的ghost
图像,来接管服务)等功能,而无需配置额外的硬件或许多复杂的配置。能够把一台虚拟机当作一组文件的功能意味着备份和恢复也变得很简单了。虚拟机运行在其之上的硬件可以改变(在一定范围内),这使得将物理硬件转换到虚拟设备成为了虚拟机管理程序的工作。这意味着虚拟机及其封装的工作负载比以往更轻便。
灾难恢复规划及其执行
让我们来看看一个典型的灾难恢复计划的关键要素,然后在看看虚拟化技术在这一过程中可以提供怎样的帮助吧。
实施灾难恢复计划的第一步便是要了解业务的需求,并为其服务等级目标匹配相应的应用程序。在灾难恢复领域,标准的几个考察要点是恢复时间目标(RTO)和恢复点目标(RPO)。
RTO通过应用程序指定了其可以容忍的服务中断的时间,在该时间范围内,服务必须恢复。关键任务应用程序的容忍度低,甚至是零(这就意味着服务必须在任何时候都是持续稳定的)。
RPO 描述了一款应用程序所能够容忍的数据丢失量。其可能是零(即,不能出现数据损失的情况)或以分钟或小时为单位进行测量。一些非核心的应用程序(如用于报告的应用程序)可以忍受长达24小时的RPO,特别是对于那些数据可以由其他来源产生的。
在这一点上,技术的选择没有轴承。开展业务影响/风险分析是基于对业务需求的人工评估。但随着我们在灾难恢复规划过程中的进一步发展,我们会发现逐步会有更多的技术选择出现。那么,问题来了:虚拟化技术到底在哪里可以为企业的灾难恢复提供帮助呢?
灾难恢复风险评估
在灾难恢复规划过程中的下一个步骤便是利用服务要求分析得出影响,并进行风险评估。
对于每一款应用程序或系统,我们均可以映射 RTO/RPO 要求到可能发生的风险类型,评估这些风险发生的可能性,并分别开始针对每一款应用程序或系统制定减灾和恢复策略。下表显示了一些例子:
从这一点上,我们可以看到,可以在物理和虚拟基础架构之间进行选择。
第一个示例演示了如何利用一款基于物理硬件的集群解决方案来实现服务要求的交付。该应用程序可以容忍长达30分钟的中断,虽然数据丢失是不可接受的。
这可以从一个成本非常昂贵、镜像故障转移的物理基础设施;或者一台虚拟机、采用高可用性(如VMware HA),实现交付。此功能可以自动重启一款应用程序到二级硬件,这可以使用共享的存储基础设施,以确保零RPO。
第二个例子展示了一家企业的网站需要确保24/7 全天候无停机时间。在这种情况下,应用程序是基于静态数据的,因此可以从一台或多台web服务器实现所有对同一数据池访问的交付。如果任何一台服务器出现状况,负载均衡软件将把访问流量重定向到一台新的。
在这种情况下,虚拟化可以通过在单独的虚拟机提供Web服务器提供帮助。如果某硬件发生故障,一台新的web服务器可以从一个模板进行部署,并添加到负载均衡列表,而无需更复杂的HA或集群软件。该解决方案也可以跨多个地理位置实现交付。
第三个例子强调了一款传统的应用程序可以如何通过传统的或基于虚拟机的备份得到保护。较之使用物理基础设施,一款虚拟的解决方案还可以提供更快的备份和恢复功能。
建立一套灾难恢复计划
现在,我们已经确定了企业业务对于应用程序的需求,并量化了相关的风险,然后,我们就可以开始全面映射减灾和恢复方案,并将其作为一款应用程序和基础架构设计的一部分了。在这其中,较之纯物理服务器的操作,虚拟化提供了一些独特的特性,可以帮助实现业务连续性。其中包括:
·能够在几分钟之内启动新的虚拟机,基于模板的应用程序工作负载功能。
·通过容错和高可用性的应用程序恢复,消除了对于复杂的恢复解决方案的需要,其中包括对于部署地理位置的要求。
·使用诸如VMware的站点恢复管理器等工具,实现集成整合和虚拟机故障的自动转移到远程位置。
·较之生产现场,抽象硬件允许虚拟机从不同的硬件恢复,其可以是更低或更高的规格或整合。
·虚拟机/服务器备份基于来自底层存储的基于文件图像的拷贝。
·利用故障转移的集成整合,通过使用基于主机的工具,以避免崩溃一致的(crash-consistent)的副本,实现更高的应用程序恢复几率。
·灾难避免通过使用诸如VMotion这样的工具。
所有这些功能允许应用程序得以通过比采用物理服务器所能够达到的更有效的方式被部署在基础设施。
测试和验证
在灾难恢复计划设计完成之后,就需要对其进行测试和验证。是否使用虚拟基础设施,该计划必须包括验证应用程序能够在灾难恢复模式和恢复正常运营后,满足每款系统的服务水平目标的相关条款 (RPO/RTO)的功能。
虚拟化也不能避免测试(以及确认基础设施各部分的配置是否正确的工作),但它可以使测试过程变得更简单。例如,在一个灾难恢复站点测试功能和数据完整性采用会更容易,同时还能够保持虚拟机的隔离,以避免与生产环境的冲突。这可以在不影响灾难恢复过程的前提下实现,而如果采用物理服务器进行测试,直到测试结束的整个测试过程,生产服务都存在风险。
总结
虚拟化为实现更高效、更简单的灾难恢复提供了许多机会。但是,正如我们所看到的,其并不是一个经过了深思熟虑的、详细而全面、且基于企业业务需求而制定的灾难恢复计划的替代。随着技术的不断发展,灾难恢复计划需要不断进行审查和更新,以反映当前的虚拟化功能,以便成为确保业务连续性的一个“活”的文件。
本文转自d1net(转载)