云运维如何选择部署适合自身的IDC和网络

目前市面上的云产品层出不穷,对于用户来说选择一款适合于自己业务的云至关重要。这要求用户选择的云产品除了与自己的业务需求契合度高之外,还要运行稳定、可用率高。

对于各种云平台来讲除了技术上的差异外,有一点是相同的,他们的资源都是部署在IDC机房和运营商网络上的。因此选择一个稳定的IDC和网络供应商来承载各自的云平台是各云服务提供商的首要任务。

之前力哥已share过G云COO冯总的相关IDC选择的文章,在文中着重对个运营商网络和节点做了阐述,因此,我会在其他方面多说一点,经验不足支持请大家多多包涵。

选择运营商骨干节点所在地区的IDC、网络一般为单线,电信和联通骨干节点所在地一般都是省会城市,IDC和网络普遍具有以下特点:

1.建设等级高,基础设施好:所建设的IDC等级相对较高,属于运营商4星级以上机房,电力、空调、柴发等基础设施都具有N+1或N+N的冗余,高可用性较好。一般不会因基础设施问题导致云平台服务小时级别的中断。

2.运维经验丰富、运维力量强:由于是骨干节点,IDC和网络的重要性较强,运营商会配备本区域最富有经验的维护人员团队,因此无论基础设备问题还是网络方面的问题,均可以得到比较迅速的定位或者协调资源来解决。

3.网络接入层级高、扩展方便:网络方面,骨干节点地区IDC一般一跳就会至省级或集团骨干网,甚至有的重点IDC核心设备直连骨干网C级设备。与其他地区相比减少了很多中间传输线路,降低了故障率且在带宽扩展性也非常的便利。

4.运营规范、服务到位:与其他地区相比运营IDC的时间都比较长而且有比较规范和完善的SLA,在服务方面比较到位。可以为客户省却大量的前期沟通成本。

从客户群体来看排名靠前的互联网企业例如BAT等都在这些地区有大量的部署,经过BAT对运营商服务质量、IDC基础条件、运营规范等方面的推动,运营商在服务意思和安全防范上无论从横向还是纵向来讲都是比较领先的。

G云部署在南京、上海、天津、广州等地机房都属于此类型的IDC,IDC和网络运行多年都非常平稳,每年基本可达到99.95%的可用率。

内容包括三个主题:

◆BGP机房和网络的选择

◆BGP在G云中的应用

◆墨菲定律对运维的启示

一、BGP机房和网络的选择

BGP网络融合了三大运营商甚至更多运营商线路,既可以解决国内运营商之间互联互通问题,也有效解决了有些业务对于多IP多线路架构上的不支持。因此,对于用户在不同时间段多运营商无缝接入的手游等类型业务特别适合。但是因BGP网络融合了多运营商线路,故对于网络故障率和故障后产生的影响都增大了很多,选择一个比较靠谱的BGP机房和网络非常重要!

对于BGP实现方式来讲,国内95%以上的BGP线路都不是全网穿透式BGP,一部分是与单个运营商网内BGP广播互联,一般是与运营商进行静态广播完成的;有的线路是采用本地运营商的资源,有的则是通过长途链路从外地引入至本地的。因此不同的方式、不同的线路资源对于网络的可用性、价格都影响较大。云平台对BGP机房和网络的选择主要注意以下几个方面:

1.BGP机房的选择---机房等级高、基础设施有冗余

国内目前有能力承建IDC并很好的对外服务的运营商除三大基础运营商外,仅有世纪互联、鹏博士、万国数据等少数运营商有实力。其他的二级运营商一般都是租用或与基础运营商合作的方式来发展BGP机房业务,为了降低成本有些运营时间较久或建设等级不高的机房会推向市场。这些机房的基础设施都比较老化甚至一些关键设施如UPS等都无冗余,运营隐患非常大,因此在选择BGP机房时要注意IDC运营的年限、建设的等级和关键基础设施的冗余。

2.BGP网络的选择---覆盖好、本地线路资源

目前BGP网络覆盖全国资源较好的的确是北京,北京的基础运营商相对比较开放也是BGP网络发展和运营最好的地区。广东地区发展次之。为保证BGP网络的品质,最好选择北京当地基础运营商广播接入的运营商。二级运营商为了节省成本或规避当地运营商的接入限制,有些线路资源从河北等地调度至北京,或把北京等地的资源调度至外地使用。除了造成延时大增外,还会有长途链路传输上的不可靠等隐患。这些都可以通过网络检测工具ping、tracert路由分析来判断线路资源是否属于本地。

3.客户群体高端或垂直,防Ddos攻击能力强

BGP网络因成本、资源等原因抗Ddos攻击能力比较弱,目前行业内BGP机房防Ddos的能力一般在5G左右,目前国内的攻击成本较低,因此现在网络遭受Ddos等安全攻击已成为常态。对于BGP运营商来说机房内客户的规模和其业务的合规性对于减少Ddos攻击数量有很大作用。

目前G云平台一般选择散户少、垂直用户多的BGP运营商作为合作伙伴,传奇、九阴等众多对端游、手游对网络要求较高的业务都在上面运行的良好。

二、BGP在G云中的应用

1.BGP简介

BGP是一种路由协议,目前internet上大型网络或者机构运行的协议绝大多数都是BGP,他协议传输可靠,更新消耗小,而且具备丰富的路由选择的策略,能够支持数十万甚至百万路由条路。因此在面临多出口路径选择且路由条路众多的情景,一般情况下都是选择使用BGP协议。

2.运营商BGP线路的那些事

由于国内多运营商的存在及互联互通问题,很多公司基于业务的特点希望所在的数据中心网络能够覆盖越多用户越好,且希望架构简单。因此选择多线路接入的BGP资源成为其必然选择。就运营商而言目前IDC出口类型主要分以下几种: 

第一种:静态链路,通过静态路由与运营商互联,运营商PE设备为城域网级别设备,这种方式最简单,而且价格便宜,一般为十几元至一百多元每兆,缺点是:无法穿透其他运营商且无法根据路由权值做路由选路策略。

第二种BGP广播链路:与运营商进行对等互联BGP连接,PE设备为骨干设备。需要拥有自己的IP地址和AS号,优势是,可以接受运营商的国内所有路由及发送自己的公网业务路由,丰富路由策略权值做路由调整使用。

这种方式链路租费和广播费用昂贵,且需要强大的运营商关系。每兆价格在几百元甚至千元。

第三种:静态代播,静态链路的衍生版本,通过静态路由与运营商互联,接入PE设备为城域网级别设备,运营商用静态路由指入互联,并用OSPF重分布将静态路由广播至全网,要求接入商必须有自己的ip地址。

此种方式在操作时,在静态链路的价格上还要付费给运营商IP广播费用一般为十几至几十元每IP、每月。此种方式也无法灵活的根据路由的权值做路由的选路。

各机房间采用BGP协议,方便路由灵活、敏捷的切换及多协议的扩展。对于一些较为边缘的机房则采用gre over ipsec的方式接入G云骨干网核心。G云机房还在根据业务的发展,与运营商进行BGP互联,建设自有的BGP出口资源。

由于BGP协议和资源使用方面相对都比较成熟了,相关的优缺点和走过的艰辛就不在此多说,因此在此仅仅与大家分享一下机房之间gre over ipsec备份线路互联时值得注意的点:

1.MTU问题,机房间做了GRE IPSEC后,数据包头大小是有变化的,需要考虑GRE和ipsec对包头的大小的影响,因此在内网传输数据或业务使用时一定要注意数据包分片问题,及时调整系统或者网络设备的MTU值。

2.Ipsec加密对网络设备是有消耗的,一般来说对数据进行des加密,对于cisco3945E设备,其效率是3des的4倍,当cisco 3945E运行 IPsec时;单向加或解密延时2.5ms,In+Out加解密延5ms,两端双向10ms ,ciscoASR路由器IPsec无延迟。Cisco 3945E 采用ESP-DES加密时内存占650M,CPU 50%。因此请大家在实施是根据数据中心在内网中的定位和需求灵活的对设备进行选型。

三、墨菲定律对运维的启示

二十世纪西方文化中最杰出的三大发现就是墨菲定律、帕金森原理、彼得定理了,其中墨菲定律的主要意思是只要事情存在问题,他总会发生。我和很多朋友在数据中心和网络、系统岗位挣扎多年,对此感受颇深,也有相当多的案例可以佐证。先说一个近期的案例,一朋友在机房搬迁时,大部分工作都操作完毕,最后仅仅是Ddos安全设备未与安全同事确认部署效果,加上连续奋战太累就先回去休息了,以为安全攻击是较小概率事件,因此即时有问题,下午也可以很快搞定。结果在上午休息过程中,该机房某款业务就遭受到数次了大流量Ddos攻击,导致整机房业务受损严重。

近来的Ctrip事件、青云、阿里云运营事件的产生从某种角度来说都有墨菲定律的影子。因此对于我们来讲主要有以下启示:

1.重视细节、重视流程

无论做变更操作还是版本发布及其他运维操作,在细心的同时严格按照流程和规范操作,比如小到变更流程、回退操作,发布流程大到运营管理和项目管理,使规范流程的意识深深的烙印在心里。无论是人为操作或者系统自动操作都有出纰漏的可能,按照规范流程操作可以有效的保护我们,使我们免于背负不必要的黑锅。

2.要有乐观积极心态,千万不能受负面情绪影响

在做运维过程中,任何操作都是战战兢兢、小心翼翼,若没有积极乐观的心态和强大的自信心,估计做不了几年运维,精神上就无法负荷了,肯定会被压垮,从而会导致更大的错误出现,乃至影响到自身的生活。因此,我们必须要有积极的心理暗示,强大的自信心来面对我们的工作,甚至客户、老板,只有这样才能在工作中游刃有余、稳步推动。也希望各位做运维的兄弟能够团结起来,进行资源、信息、知识共享降低运维的门槛。

提问环节:

问题1:运营商BGP线路里面,类型3和1相比的优势在哪?

答:类型1是目前单线或者双线机房常用的方式就是与运营山谷进行静态路由方式互联就是我们所谓的双线双IP,类型3是所谓的假bgp,即一个IP分别让几个运营商进行静态网内代播,运营商之间不能穿越。

问题2:有无做过TCP OVER ANYCAST这种网络架构的测试?

答:暂时没有进行测试,后续会有计划对DNS over anycast的技术进行研究,届时可以一起交流。

问题3:你们租机房的适合会考虑备份系统有效性吗?

答:备份系统有效性更多是从业务层面验证,对于基础性机房选择的话更多的我们会从基础设施(电、制冷、柴发)和网络稳定性去考虑。目前对于重要的业务系统例如计费认证类型的一般在同城都有灾备,而且同城各机房间会采用裸光纤进行环状互联,以保证关键数据传输的高可用性。

作者:苏永华

来源:51CTO

时间: 2024-10-31 06:15:41

云运维如何选择部署适合自身的IDC和网络的相关文章

阿里云运维部署工具AppDeploy UI界面上线

阿里云运维部署工具AppDeploy版是一个通过SSH实现的流式命令行工具,可用于完成应用部署和远程运维管理,其工作于python平台上,具有良好的可移植性:AppDeploy图形化界面提供友好的用户交互模式,让您更加便捷.直观的实现业务需求.   UI版本免费下载地址: http://market.aliyun.com/products/53690006/cmgj000321.html?spm=5176.900004.4.4.xhgeT3   下图是AppDeploy UI的主管理页面: 脚本

如何让云运维变得简单

随着工业4.0的兴起,云计算已经从实验阶段转化为具体实施阶段.除了部署相应的软件.硬件和虚拟化资源,还有一个问题摆在我们面前,如何运维云?如果没有清晰的云运维规划和手段,云数据中心将难以高效的运转起来,所以云运维对于云建设者来说是至关重要的一环.那么云数据中心与传统的数据中心运维有什么共同点和差别?做好云运维应该关注什么?该如何选择一个合适的云运维工具?上述问题都是应该是云运维过程中会遇到的.下文会针对这些问题展开详细论述 一.云运维与传统数据中心运维比较 "云是数据中心的新IT形态"

如何打造一个高逼格的云运维平台?

作者简介 鲁逸丁  中国银行卡组织运维架构师 长期从事金融信息系统运维工作,专注于运维体系建设,对金融企业云计算运维具有深刻理解,银行卡组织云运维平台负责人. 前言 大家做运维普遍经历这样的过程: 首先我们会把操作做一个标准化,这个阶段是运维质量的提升的阶段. 在标准化实施完以后,由于数目的增加,或者是一些运维场景的增多,我们会逐步的进行一些工具化和自动化,这个阶段我们的运维的效率得到提升. 但是众多的工具以及自动化脚本,会让我们的管理过程中比较困难,随着人员的变动或者是一些工具维护过程中的差错

BoCloud博云完成近亿元融资,加速PaaS与云运维落地

5月10日,企业级云平台解决方案提供商BoCloud博云,宣布完成近亿元人民币的B轮融资,该笔融资成为国内迄今为止容器技术.PaaS及自动化运维领域创业公司中规模最大的一笔融资,也是容器领域国内迄今最大的一笔融资.本轮融资由元禾控股.东方富海联合领投,江苏华泰证券互联网基金与邦盛资本参与联合投资.本轮融资证明BoCloud博云的技术.产品.服务.运营能力受到投资人的高度认可,希望通过注资帮助BoCloud博云进一步加强其在市场中的竞争力,加速公司发展,打造公司领导力,扩大公司服务能力,为BoCl

如何搞定云运维——云计算IT基础设施与自动化运维论坛掠影

5月18日~20日,第八届云计算大会在京召开,工业和信息化部副部长怀进鹏出席会议并讲话,云计算大数据领域的9位院士和200多位专家在全体大会和专题论坛上作报告,三天共有超过15000人次听众参会.这个数字远远超过了往届会议,从侧面也足以说明,云计算在国内已经取得了足够的认可和关注. 事实上,有一种趋势无法忽视.企业对云计算的主要诉求从"经济"转变为"业务",也就是说,云计算推广初期所高举的"省钱"大旗不再是企业关注的主要方向,企业更关注云对其业务

阿里云运维部署工具AppDeploy最佳实践

阿里云AppDeploy版是一个通过SSH实现的流式命令行工具,可用于完成应用部署和远程运维管理,其工作于python平台上,具有良好的可移植性:AppDeploy将本地应用软件上传到远端服务器,并执行用户预定义的产品部署命令. 工具当前免费下载使用,地址: http://market.aliyun.com/products/53690006/cmgj000331.html http://market.aliyun.com/products/53690006/cmgj000321.html 本文

开源还是商用?十大云运维监控工具横评

随着云计算和互联网的高速发展,大量应用需要横跨不同网络终端,并广泛接入第三方服务(如支付.登录.导航等),IT系统架构越来越复杂.快速迭代的产品需求和良好的用户体验,需要IT运维管理者时刻保障核心业务稳定可用,而企业运维中的痛点和难点也急需解决. 1.面向业务的运维,不但关心单点IT资源的运行状态,更关心整个业务系统的健康状态 2.如果企业使用了大量的API和模块化应用,那么关注每个接口的性能变化情况和指标 3.对于运维主管及企业管理层来说,特别需要上墙的监控大屏 4.运维需要每周.每月查看报告

优云运维专家浅谈运维平台选型,提速DevOps运维

现如今DevOps已经深入人心,在这个大量数据中心建设加速的时代,运维部门都在高度强调自动化,而自动化的关键即DevOps.但是,大家在推进DevOps的过程中却发现其前途坎坷. 一种方案是建设自己的开发队伍从头开始,做CMDB.做监控.做自动化.做流程.做服务目录.做大屏展现,这种造轮子方法需要强大持续的研发投入,成本极高: 第二种方案则是寻找开源产品改造,以适合自己,如CMDBBuild.Zabbix.JBPM等,但是开源社区的产品,技术风格迥异,成熟度低,技术团队的素质要求高.踩的坑很多,

优云运维资深大牛:如何让CMDB配置维护更贴近人性

近来很多行业内的大佬关于CMDB连连发声,CMDB的关注度持续高涨,CMDB的前生就是长满雀斑的丑媳妇,扭扭捏捏不受待见这么多年,终于熬出头要见公婆了.哎,她的贤惠谁能懂? 言归正传,在拜读了多篇大牛的文章发现,提及配置维护的内容很少,有也是一带而过.但在过去和用户的接触过程中,发现配置维护一直是一个无法回避的大难题,一块难啃的骨头.业界产品的普遍做法主要是依靠自动发现+人工维护+流程控制.对于自动发现.流程控制,我想只能解决配置维护的60%的工作,真正出现问题的是占用40%工作量的人工维护.由