甩掉运维黑锅,容灾部署如何破?

引言

现如今本地负载均衡技术已经解决服务器集群的高可用问题,但是断电、施工挖断光缆、自然灾害等依然可以导致整个数据中心无法工作。另外,中国网络由多家运营商组成,各运营商之间互联互通质量差已是不争的事实。因此大型互联网企业早已不满足于单一、或者双活数据中心提供网站服务,越来越多的互联网企业开始考虑在不同地区、不同运营商部署多个数据中心集群,以实现用户访问就近接入、负载均衡和故障容灾。

提到多数据中心部署,就不可避免需要面对以下三个问题。

1. 多个数据中心流量如何分配?
2. 监控怎样及时发现网络故障?
3. 多个数据中心服务如何容灾?

如果这三个问题不能有效解决,将会导致用户访问质量差、服务黑洞、以及客户的投诉。而网站背后的运维人员,则会频繁受到销售、PM、领导的Challenge!沦为背黑锅的对象。令人欣喜的是,阿里云产品云解析DNS,现已助力中小企业解决多数据中心的流量负载均衡、实现用户就近接入、故障及时发现和实时容灾切换.

破局

多数据中心流量负载均衡

在多个数据中心部署服务时,必然需要面对不同数据中心接入带宽不同、服务器集群负载能力不同、以及运营成本等诸多因素。所以需要针对不同的因素设计与之相匹配的流量分配比例,那么如何能够精确的分配访问流量呢?云解析DNS为您提供了一些参考方案。

云解析DNS是一款经过特殊设计的智能DNS系统,能快速识别出IP地址所在的位置信息(包括国家、省、市和运营商等),并可以向不同来源的DNS查询响应不同的IP地址,实现企业就近接入、降低跨网流量的需求、以及灰度发布等需求。同时,针对相同位置不同服务能力的数据中心集群,可以通过WRR(Weighted Resource Record)来设置整体流量分配方案。

例如:example.com公司的www官网,有6个数据中心,其中华北电信两个、华东联通两个、另外两个托管在阿里云BGP数据中心,如图一所示。

 

图一

 

1. 华东联通两个数据中心的带宽比例是3 :7,通过云解析设置线路内负载均衡时,将两个数据中心服务IP地址的权重分别设置成3和7, 达到华东联通访问流量按照30%和70%分配的比例;

2. 华北电信两个数据中心的带宽比例是1 :1,通过云解析设置线路内负载均衡时,将两个数据中心服务IP地址的权重分别设置成1,达到各占华北电信访问流量50%的配置比例;

3. 阿里云BGP 两个Region的ECS数量比例是8 :2,那通过云解析设置线路内负载均衡时,将两个Region公网弹性IP地址的权重分别设置成8和2, 达到访问流量按照80%和20%分配的比例;

4. 网络监控对各个数据中心的服务IP进行实时监控;

5. 网络监控周期性将监控结果反馈给云解析DNS;

6. 用户向华北电信dns发起www.example.com DNS查询请求;

7. 华北电信dns收到用户的查询后如果没有缓存该域名,则向云解析DNS发起域名查询;

8. 云解析DNS收到华北电信的DNS查询时,轮询响应IP地址3.3.3.3和4.4.4.4。此时一半华北电信DNS得到的结果时3.3.3.3,另半华北电信DNS得到的结果时4.4.4.4。同理,云解析DNS收到华东联通的DNS查询时,先连续返回3次5.5.5.5,再连续返回7次6.6.6.6,然后重复执行,此时30%的华东联通DNS得到的结果是3.3.3.3,剩下70%得到的结果是4.4.4.4。

9. 华北电信DNS收到云解析DNS的响应后会缓存域名解析结果,并返回给最终查询用户。

10. 最终实现50%的华北电信用户访问3.3.3.3上的网站服务,另外50%华北电信用户访问4.4.4.4上的网站服务。

网络监控及时发现故障

1. 云解析DNS在通过智能解析和WRR帮助中小企业实现就近访问以及流量分配的同时,有效的结合阿里云分布式监控,利用全网拨测探针对网站的解析记录进行实时监控,如图二。

图二

2. 云解析DNS的网络监控目前已支持HTTP/HTTPS、自定义URL在提供5真实阿里巴巴拨测节点基础上,优选了15三大运营商优质拨测点。同时多达50监控任务数的配置全面领先竞争对手,确保能够及时发现宕机故障,增大监控覆盖面,如图三。

                                                     图三

3. 低至1分钟的监控频率,相当于您的网站每3秒钟,就可以获得一次健康检测,最快可以宕机后3分钟内检测出故障,并通过全球负载均衡功能完成故障切换。

4. 为了防止误报警现象发生,我们将宕机判断阈值设置为50%,即50%的节点监控异常时判定为宕机故障。

5. 当然DNS生效还受到运营商缓存TTL的影响,建议设置主机记录TTL为60

6. 如果你是移动端开发者,推荐配合阿里云HTTPDNS服务同时使用,故障切换更加灵敏。

线路间切换实现故障隔离


故障隔离

在网站服务运行的过程中,故障不可避免总会发生。那么如何做好故障隔离呢?云解析DNS有以下一些实践,可供中小企业使用,如图四。

                                                                                                 图四

 

1. 华北电信一个数据中心集群4.4.4.4因异常原因出现大面积故障,网站服务中断,用户访问失败;

2. 网站监控在2分钟内发现4.4.4.4集群故障,同时通知云解析DNS系统暂停华北电信:4.4.4.4的IP地址解析;

3. 云解析DNS暂停故障IP解析后,只向华北电信DNS查询返回IP地址:3.3.3.3,同时云解析DNS解析日志会记录下故障时间、IP地址、暂停操作信息,并通过短信和邮件通知您的运维工程师。

4. 最终实现将用户的访问流量全部转移至华北电信数据中心:3.3.3.3。

故障恢复

当网站恢复服务后,如何便捷的迁移会流量呢?如图五。

图五

 

1. 在华北电信用户的访问流量全部迁移至3.3.3.3后,4.4.4.4相当于离线状态,你可以组织相关技术同学对故障集群进行修复。

2. 修复完成、测试通过后,监控系统能自动检测到华北电信数据中心4.4.4.4的网站服务恢复正常,并通知云解析DNS恢复华北电信4.4.4.4 的IP地址解析,

3. 云解析DNS收到华北电信的DNS查询时,轮询响应IP地址3.3.3.3和4.4.4.4。经过一段时间后,一半华北电信DNS得到的结果是3.3.3.3,另一半华北电信DNS得到的结果是4.4.4.4。

4. 最终用户的访问流量会平滑的过度到原始配置各50%的比例,确保访问流量在恢复时平滑、用户无感知。

异地容灾

对于大型互联网企业,必须要考虑的一点是在灾难性情况发生时,如何保证用户访问正常,如图六。

图六

 

1. 由于某些不可抗拒的原因,华北电信的数据中心两个接入IP地址:3.3.3.3、4.4.4.4全部出现故障,并无法及时恢复;

2. 网站监控及时发现故障,并通知云解析DNS暂停所有华北电信线路下IP解析;

3. 云解析DNS暂停解析后,会启用线路间负载均衡策略,向华北电信用户的DNS查询返回阿里云BGP Region地址:1.1.1.1、2.2.2.2;

4. 最终实现将整体华北电信用户的访问流量调度至默认线路阿里云BGP Region:1.1.1.1、2.2.2.2,保障在极端情况下,依然能够向华北电信用户提供正常的服务,如图四所示。

总结

云解析DNS是一种高可用性、高可扩展的权威DNS服务和DNS管理服务。提供了多种全球负载均衡策略,帮助中小企业快速、准确的将用户请求路由至您的数据中心,同时具备高可用容灾切换能力,实现在一些数据中心故障的情况下,仍然能保证中小企业的网站服务可访问。

未来云解析DNS还会将会与更多的阿里云产品相结合,例如SLB、ECS、CDN、云盾等。形成立体化的高可用网站解决方案,从访问入口到后端服务助力中小企业实现全链路负载均衡。

推荐配置:欢迎选购全球负载均衡版:买满1年立享85折

https://dns.aliyun.com/buy/index?spm=5176.71615.369160.20160710.QKJmwC&code=dz-gslb

时间: 2024-08-31 05:14:24

甩掉运维黑锅,容灾部署如何破?的相关文章

②云上场景:众安保险,两地三中心容灾部署实践

众安保险是首家互联网保险公司,也是第一家将全部业务系统搬上云计算平台的金融企业.通过使用云计算技术,仅用5个月的时间就实现了两地三中心的容灾部署,并实现对海量互联网业务的支持,云计算相对于传统IT的优势一览无余.   其全部核心业务系统已经上云,包括:渠道接入平台.保单处理系统.电子保单系统.财务系统.B2C系统.官方系统.清算结算系统.商业智能分析系统.OA系统.IT监控管理系统.IT运维服务系统等各种系统,并且还在不断的进行扩展核心系统.通过两地三中心的部署实现高可用性和容灾的管理.并通过生

Puppet这类降低运维难度、提高部署速度的工具越来越受到青睐

提供自动化运维管理平台的数据中心自动化初创企业Puppet Labs今天宣布获得了4000万美元的E轮融资. Puppet Labs 为企业和云提供系统管理及数据中心自动化软件.该公司的旗舰产品 Puppet 是一款开源的数据中心自动化及配置管理框架,可为系统管理员提供一个易用的平台进行透明.灵活的系统管理.有了这个平台,系统管理员进行虚拟化和云设施的安装.配置.管理将会变得更加容易.2012年,Puppet推出了自己的第一款商业版产品Puppet Enterprise.目前有超过18000家公

高效运维之Docker持续部署图文详解

前言 关于Docker的文章铺天盖地,但精品文章往往翻译居多.都说Docker天生适合持续集成/持续部署,但同样,可落地.实际可操作性的文章也很少见. 基于这些情况,虽然我们专栏定位为运维管理性文字,但本篇是个特例,实操性的案例讲解--JAVA项目如何通过Docker实现持续部署(只需简单四步),即: 开发同学通过git push上传代码,经Git和Jenkins配合,自动完成程序部署.发布,全程无需运维人员参与. 这是一种真正的容器级的实现,这个带来的好处,不仅仅是效率的提升,更是一种变革:

80%的时间在救火,传统运维如何快速成长不被淘汰?

导读:自从<应对双11挑战,阿里巴巴自动化运维体系的演进和建设>文章发布以来,就引来了众多运维从业者的关注,大家不禁思考,无人化运维离我们有多远?我们如何成为运维领域的专家,不被淘汰?阿里巴巴运维中台技术专家宋意,整合了云效2.0运维产品StarOps,教大家如何利用工具把人从日常重复工作中解脱出来,向专业垂直领域纵深发展,逐步成长为领域专家. 从传统运维OD分离转型到新型运维DevOps,不是简单把运维丢给开发就可以了,需要先把运维的工作工具化,实现开发可以利用工具自助完成,DevOps强依

MaxCompute( 原名ODPS)大数据容灾方案与实现(及项目落地实例)专有云

一,背景与概述     复杂系统的灾难恢复是个难题,具有海量数据及复杂业务场景的大数据容灾是个大难题.     MaxCompute是集团内重要数据平台,是自主研发的大数据解决方案,其规模和稳定性在业界都是领先的.在周边系统众多,业务场景复杂,海量数据存储和计算调度都是一个难题的情况下,需要保证大数据系统在灾难发生时能够尽快切换到备用系统服务,最小限度影响客户使用.     容灾系统及方案的建设有很多种方式,如同城双活,异地多活,冷备容灾等.MaxCompute大数据的容灾方案是在多年集团内部断

双11黑科技,阿里百万级服务器自动化运维系统StarAgent揭秘

导读:还记得那些年我们半夜爬起来重启服务器的黑暗历史吗?双11期间,阿里巴巴百万量级主机管理能安全.稳定.高效,如丝般顺滑是如何做到的?阿里巴巴运维中台技术专家宋意,首次直播揭秘阿里IT运维的基础设施StarAgent,详细分析StarAgent是如何支持百万级规模服务器管控?如何像生活中的水电煤一样,做好阿里运维的基础设施平台? 嘉宾介绍 宋健(宋意):阿里巴巴运维中台技术专家.工作10年一直专注在运维领域,对于大规模运维体系.自动化运维有着深刻的理解与实践.2010年加入阿里巴巴,目前负责基

全球运维大会GOPS 2017您一定不能错过的9个演讲!

2017,GOPS全球运维大会深圳站是一场丰盛又人性化的盛会,自助餐,当蛋糕.烤肉.沙拉.海鲜摆在我面前时,可以看心情选自己爱吃的.在GOPS全球运维大会深圳站设置了很多的专场,满足侧重不同方向的运维所需,来这里选你中意的! ps:篇幅所限,更多详情请点击下方链接 详情:https://www.huodongjia.com/event-231365274.html SO,接下来活动家和您介绍一下GOPS全球运维大会深圳站的干货硬菜:"GOPS全球运维大会深圳站深圳站,您一定不能错过的9个演讲&q

漫画图解IT人最在乎的三样东西,没想到运维狗又中枪了

中国有逾千万的IT从业人员 大家经常戏称他们为"挨踢"人 那么这些人群有些什么痛点呢? 看看下面三组漫画吧 01 关于女朋友 02 关于工资 03 关于时间 据说IT人22点下班都算早的 其中又以运维汪加班最为严重 但是! 品高云V7.0隆重推出 深度自动化运维服务 平台可根据预设的运维方案和常用指令 自动执行运维功能 充分解放运维压力 每天按时下班不用愁 下面就来看看怎样部署吧 深度分析品高云V7.0 05 深度自动化运维 云计算时代 IT 运维的发展趋势 目前,云计算已经从概念阶段

自动化能让运维在旁边喝咖啡?一起听听饶琛琳给我们带来的精彩演讲吧。

在运维侠客行·北京站上,主办方优云软件特意邀请了来自日志易的产品总监饶琛琳老师给大家带来了数据驱动的智能运维主题演讲.本文主要从怎么做到DevOps开始聊起,接着说了智能运维平台作用和架构,并对告警交互系统进行分析,最后对智能运维平台进行了简要总结.一起来了解下吧. 饶琛琳,日志易产品总监,前·新浪微博系统架构师,Weibo: @ARGV,著有:<网站运维技术与实践><ELKstack权威指南>译有:<Puppet 3 Cookbook><Learning Pup