如何衡量数据中心的高可用及容灾水平

数据中心的好与差有很多评判的方法,很多评价机构都是将多方面的因素考虑进来,对每种因素进行评分,再根据经验对每种因素给定权重,最终得出数据中心的评价结果,按照预先定义的数据中心等级,根据评价结果给数据中心定级。不少的数据中心评价机构尽量保证数据的真实性和权威性,一定要将数据中心分个三六九等,这其中就有两项非常重要的参数,就是一个数据中心的高可用性和数据中心的容灾能力。往往这两项会在整个数据中心评价中占据相当大的权重,很多数据中心在建设时考虑最多的也是这两个方面。下面就展开来谈谈高可用性及容灾。

何为高可用性?是指在规定的条件和规定的时刻或时间区间内,数据中心处于可执行规定功能状态的能力,它是数据中心可靠性、可维修性及可维护性的综合体现,一般用MTBF(mean time between failure)和MTTR(mean time to repair)两个可量化的参数衡量。容灾就是容忍灾难,即在灾难袭来时从容不迫,应付自如。对于数据中心来说,容灾就是使一个数据中心具有应对一定灾难袭击,保持系统持续或不间断运行的能力。这些灾难包括天灾(水灾、火灾、地震、龙卷风、海啸、环境恶化)和人祸(操作失误、程序缺陷、软件错误或故障、硬件老化或次品、蓄意破坏、病毒、黑客攻击、恐怖袭击、战争)。衡量一个数据中心的高可用性以及容灾的水平,应该考虑三方面的内容。

灵活的流量管控

数据流量是数据中心的生命线,一旦流量转发不了或者有缺失对应用肯定会有影响,所以数据中心一定要保证数据不能丢失。然而,数据中心拥有的各种设备成千上万,不可避免会出这样那样的问题,要保证数据流量不受影响,就需要对流量进行灵活管控。首先要对数据流量进行监控,实时监测网络重要端口数据流量的变化,当出现明显的波动时要引起高度注意;其次要有管控手段,当出现流量异常时,通过调整网络路由或者网络聚合端口路径,避开问题链路和转发路由表,让应用业务不受影响。很多的数据中心会考虑在网络侧做转发路径的负载分担或者备份,当其中的部分数据链路出问题时,及时切换;最后是严格过滤数据流量,避免异常流量入侵,对数据中心造成攻击。很多的病毒攻击都是通过异常流量进入数据中心内部的,最终造成系统的瘫痪,所以在数据中心的入口要做严格管控,从网络协议的数据链路层直到应用会话层均要做防御,通过防火墙、网络设备、入侵检测等设备,将异常流量拒之门外。所有这些灵活的流量管控方法,将大大提升数据中心的高可用性。

单元化的业务部署

传统数据中心业务量少,往往通过一个数据机房的数十台服务器和存储设备就可以搞定,系统一旦出现故障,很多数据也就可能丢失了。然而,现在随着信息数据对人们的工作和生活变得至关重要,数据信息变得异常珍贵。数据中心动不动就将很多数据丢失或者泄露的话是没法玩的,迟早关门大吉。而且,现在的数据增长飞快,海量的数据需要及时处理和保存,不能出差错,这时就要从数据层面考虑如何部署。数据中心引入了单元化的设计思想,即将一种数据业务进行细分,形成一个个的单元,这个单元往往处于一个数据中心之内,而具有相同数据的单元处于其它机房或数据中心中,单元之间的数据通过实时交互,保持数据准确性。数据中心进行单元化业务部署之后,应用系统实际上在多个数据中心上都在运行,数据被存放到各个数据中心内,在每个数据中心内部到处也都是单元化的功能模块,相互之间耦合的地方很少,这样同样可以大幅提升数据中心的高可用性。

故障容忍能力

数据中心对业务故障的容忍能力决定了数据中心的建设等级,要求数据中心全年故障时间越短的数据中心等级越高。提升一个数据中心的故障容忍度,将是数据中心容灾高能力的体现。数据中心可以在三个地方做容灾:一个是数据中心内部。数据中心内部在服务器、网络、存储方面做各种冗余设计,达到容灾目的,当其中某个环节出现故障,自动进行业务切换,确保业务层面不受影响,当将故障排除后,再将业务切回。第二个是同城的数据中心。有些时候数据中心遇到的可能是整体性的故障,比如供电中断或者空调故障等,导致整个数据中心无法稳定运行,这时就可以将业务通过调整路由,转移到同城的数据中心上。在同城的数据中心里有故障之前备份过来的数据,有相同的应用软件提供,同城数据中心直接接管系统,向外提供服务。第三是异地数据中心。有些时候故障可能是全城的范围,比如遇到了极端天气,比如地震、海啸、洪水、飓风等等,这些灾害将对某个地区的数据中心都造成影响,多个数据中心都可能陷入瘫痪之中,这时通过异地数据中心做灾备最安全。不过,由于数据中心在异地,有的设计为了安全,距离可达数万公里,这样网络延迟对业务就会产生影响,所以做异地灾备时,要将延迟时间考虑进去。比如一些数据库数据做异地复制,可忍受的时效性延迟是3秒。在做异地灾备时,就要考虑延迟时间是否满足。通过在数据中心内部,同城和异地都部署备份,这将大大提升数据中心的容灾水平。

数据中心通过以上三方面的建设和优化,将可大幅提升数据中心的高可用性及容灾水平,这是提升数据中心等级水平的最有效方式。

本文作者:佚名

来源:51CTO

时间: 2024-09-17 10:01:15

如何衡量数据中心的高可用及容灾水平的相关文章

AIX的存储高可用和容灾解决方案实现

基本技术介绍 AIX LVM Mirror 本地存储高可用解决方案介绍 Logical Volume Manager(LVM)是 AIX 上用于逻辑卷管理的软件.LVM 本身提供 Logical Volume (LV)数据在多个 Physical Volume (PV)之间做数据镜像的功能,以达到存储的本地高可用性.在 LVM Mirror 方案中写 I/O 与底层设备交互如下图所示. 图 1. LVM Mirror 方案架构 当服务器发出写 I/O 时,该 I/O 在 Parallel 模式下

PostgreSQL 金融行业高可用和容灾解决方案

背景 金融行业高度依赖共享存储来解决高可用,数据0丢失以及异地容灾的问题. 开源数据库PostgreSQL基于复制的解决方案能不能解决0丢失,高可用以及容灾的问题? 完全可以,而且更灵活,更可靠. PostgreSQL 金融场景实现 如图1 主备同步通过流复制实现,可靠性指标包含反馈维度的指标和一致性维度的指标. 反馈指标 1. L1,备库接收到REDO并写入XLOG BUFFER. 2. L2,备库接收到REDO并落盘. 3. L3,备库接收到REDO落盘后并恢复. 以上三个指标,对事务的时延

详解数据中心网络高可用的技术

一.高可用性的定义 系统可用性(Availability)的定义公式为:Availability=MTBF/(MTBF+MTTR)×100% MTBF(MeanTimeBetweenFailure),即平均无故障时间,是描述整个系统可靠性(reliability)的指标.对于一个网络系统来说,MTBF是指整个网络的各组件(链路.节点)不间断无故障连续运行的平均时间. MTTR(MeanTimetoRepair),即系统平均恢复时间,是描述整个系统容错能力(fault-tolerantcapabi

浅析单点故障以及云上高可用和容灾

引言 故障,不管它发生的概率有多低,终归还是会发生的.                                                                                     --墨菲定律 概念 单点故障 顾名思义,单个点发生的故障,扩展到云上的环境,指的就是单个节点发生的故障导致整个链路瘫痪.这里的节点可以是一台服务器,一个数据库,一台网络设备,乃至一个应用程序. 打个简单的比方,一个加工厂流水线只有甲乙丙丁四名员工,一个加工需求进来,需要甲乙丙

衡量数据中心好坏标准的隐性指标

评价一个数据中心有很多的参数.指标,可以用这些指标来衡量一个数据中心的好坏.比如:服务器和网络规模.PUE.RTO,RPO等等.很多数据中心很喜欢拿自己拥有的服务器数量如何的多,来表示自己的强大,相当长的一段时间内,数据中心都喜欢单纯地去追求物理设备数量的增加,认为只要是在规模越大,数据中心能力就越强,数据中心就越好.不可否认,增加设备数量,尤其是服务器数量,在纸面上的性能上确实有提升,不过真正部署业务时,要考虑的地方有很多,网络.存储.安全等方方面面都需要提升,尤其是这些多设备配置运转起来,是

衡量数据中心节能成功与否的PUE

能源利用效率(PUE)在一定程度上影响所有数据中心的利益相关者.然而,通过测量数据中心的PUE可以是主观所产生的数据.因此,其真实如否取决于企业的利益相关者的不同角色的感知.   根据关键利益相关者的特定需求,PUE值的降低可能是有吸引力的,因为可以产生更低的能源成本和减少运营支出(OPEX)和资本支出(CAPEX),同时释放更多的服务器搁置的能力,并且实现利润更大化.下面是关键的数据中心的三个利益相关者以其专业角度对PUE的重要性,以及如何利用PUE来满足内部和客户的要求: 功率分配 当规划设

数据中心热度高 苹果也来掺一脚

根据去年6月Mesa代表苹果提交的一份文件:"苹果已将这一场所的目的调整为全球数据指挥中心,将为其他数据中心进行成品数据中心机柜的高科技制造."这份文件于本周一公开. 近期,美国侯任总统特朗普曾多次批评苹果在海外生产iPhone和其他热门产品. 文件表明,苹果计划在美国进行科技产品的制造,而这在科技行业并不多见.在美国,劳动力成本很高.不过,苹果的计划只限于内部运营的设备,而不是大众市场产品. 文件显示:"这些产品并不面向终端用户,而是面向全球其他数据中心.这里将提供支持.&

通过Linux数据镜像备份工具rsync实现远程容灾备份

一.rsync简介 rsync是Linux系统下的数据镜像备份工具,通过rsync可以将本地系统数据通过网络备份到任何远程主机上,rsync有如下特性: 可以镜像保存整个目录树和文件系统 可以增量同步数据,文件传输效率高,因而同步时间很短. 可以保持原有文件的权限.时间等属性. 加密传输数据,保证了数据的安全性. 二.rsync的安装与使用 接着我们通过实例详细介绍下rsync的使用方法,这里我们假定有A.B两个Linux系统,A系统运行业务,B系统作为A的一个远程容灾备份机,那么A系统就是rs

浅谈数据中心高可用网络系统设计

数据中心的故障类型众多,但故障所导致的结果却大同小异.即数据中心中的设备.链路或server发生故障,无法对外提供正常服务.缓解这些问题最简单的方式就是冗余设计,可以通过对设备.链路.Server提供备份,从而将故障对用户业务的影响降低到最小.但是,一味的增加冗余设计是否就可以达到缓解故障影响的目的?有人可能会将网络可用性与冗余性等同起来. 事实上,冗余性只是整个可用性架构中的一个方面.一味的强调冗余性有可能会降低可用性,减小冗余所带来的优点,因为冗余性在带来好处的同时也会带来一些如下缺点: w