为什么说云主机比物理机故障率更低?

引言

很多朋友对云平台可用性有所担心,认为用物理机更加放心。今天我想就这个话题抛出个人看法。希望对大家有参考意义。先抛出结论:

从业务程序的角度,云主机的可用性可以做到比物理机高,即故障率更低(可用性和故障率接近但不是一个概念,为了便于阐述,下面只讨论故障率)。

我见过很多客户抱怨云主机的故障率。同时,我也见过并且帮好几个使用物理机的客户解决问题:

他们没有专业团队及大规模环境,对于复杂点的软硬件故障几乎束手无策,有时甚至解决的过程把小问题变成大问题。

这也是我今天分享这个话题的动力。下面进入正题,下图是云主机和物理机软硬件层次对比:

影响云主机故障率的主要因素有:

  • 服务器硬件质量
  • 宿主机内核
  • 虚拟化层(KVM+QEMU或Xen)
  • Linux内核(承载业务程序)

影响物理机故障率的主要因素有:

  • 服务器硬件质量
  • Linux 内核(承载业务程序)

从上面的对比看,云主机比物理机故障率貌似要高,因为虚拟化层和宿主机内核非常复杂,引入额外的故障率。这是直觉,而且很有道理:

AWS 去年就因为虚拟化层内核的安全漏洞大规模重启了物理机,多数AWS 用户受影响。虚拟化层和宿主机内核的BUG 也会同样造成宕机及重启。

那为什么还说云主机故障率可以低于物理机呢?

备注:这里我是从终端用户的角度看的,“从厂商购买的”物理机,来对比“从云平台购买的”云主机。

原因在于:简单来说,云平台厂商往往管理几万几十万台物理服务器,并有比较专业的基础运维团队和内核团队,可以在故障率上做大量的工作,以达成这样的效果:

  1. 虚拟化层和宿主机内核的故障率接近0。这两层是内核,通过内核优化来达到;
  2. 服务器硬件质量可以不断提升;
  3. 承载业务程序的Linux内核,云平台可以帮助用户进行维护。并解决BUG,修复安全漏洞等。

有人会说,我自己购买的物理机也能做上述优化,效果比云主机更好。 真的是这样的么?现实情况是:

绝大部分公司管理的服务器数量不多,不足以建立相应的团队;同时因为服务器数量少(比如不到万台),做软硬件优化的环境不理想。

下面就上述要点展开。

虚拟化层和宿主机内核的故障率如何降低?

这主要通过自主掌控虚拟化层和宿主机内核,这整套内核来实现。

1. 自主维护Linux内核

商业Linux发行版(如RHEL6.X)的内核其实有不少BUG,因为内核太庞大、太复杂,BUG 修之不尽而且不断涌现,只要内核有人在改动,更多的BUG就还在路上。

但我们自己维护的Linux内核,我们可以迅速修复并应用进实际环境,不像商业Linux要等待较长的发布周期。

我们还可以预先研究别人犯过的错误,把更新补丁打入现在的内核;还可以屏蔽不必要的特性和改动避免BUG的引入。

简单讲,自主维护内核很灵活,最终质量不低于商业Linux发行版。国内有海量服务器的公司如腾讯和阿里都运行自主维护的Linux内核。

2. 免重启热补丁技术

这是指通过二进制指令修改的方式修改Linux内核达到修复的目的。

结合自主维护Linux内核,如果发现了BUG并制作修复补丁后,可以免重启应用到生产环境的Linux内核里。

这点目前主流Linux厂商不提供。但云平台厂商可以自己做。

3. 热迁移技术

特殊情况下的热迁移,可规避尚未完全定位的内核问题。

这三点的综合效果,使得某些云厂商,因为内核原因造成的宕机低到可以忽略。几万台服务器半年可以减少到一两次。

可能有些早期用户应该比较有感觉,几年软件宕机不少,给客户推送的故障报告不时就和内核有关,但经过一年半载的工作后,现在几乎没有了。

服务器硬件质量如何提升?

服务器硬件故障率的影响因素有厂商品牌、机型、服务器运行时间、以及部件型号的故障率。

这里的工作需要海量服务器来做,比如上万台才有意义,而几百上千台意义不大。

这里有一张图,体现我们可以主动采取部分措施。

1. 服务器故障率和厂商机型关系密切

我们可以监控各厂商机型的故障率,主动下架比较差的,从而提升总体质量。

一般来说,小厂的服务器故障率会高一些,但大厂即使DELL、联想的个别机型也会有较高故障率。

这主要和机型设计和生产质量管控有关,就不阐述了。我们能做的是选择故障率低的厂商和机型。

2. 服务器运行时间久了,故障率会随之提升

对于云平台厂商,可以监控这一切故障发生前的征兆,并主动采取措施,通过热迁移手段避免云主机受影响。

3. 硬件宕机和部件缺陷关系很大

我们的统计发现,部件种类里,硬盘故障故障率最高,其次内存硬件、RAID卡等。

对于硬盘故障,可以通过RAID方式规避。对于内存硬件,可以通过内存故障隔离等内核手段,大幅度减少其硬件故障造成的宕机及影响。

总的来讲,通过上述这些工作,云平台厂商可以让服务器硬件故障率逐步降低。其实,可以做的更多,篇幅原因就不讲了。而这样的工作,对于没有海量环境的公司是很难做的,效果也不佳。

另外,云平台厂商可以替用户修复云主机内核的BUG和安全漏洞,降低内核故障率。

我们在这方面做了一些工作,内核版本会及时更新,关键漏洞会提供免重启热补丁修复包。

观点总结

简要总结一下本文的主要观点:

  1. 云主机相比物理机,虚拟化层和宿主机内核的额外复杂性及故障率可以被优化至接近0即可以忽略。
  2. 服务器硬件故障,云平台可以不断降低其故障率,主要手段通过内核隔离硬件故障、热迁移规避故障隐患,以及监控故障率并主动下架不良厂商机型等。

上述这些工作都需要非常专业的运维团队和内核团队才能实施,如果没有足够大的服务器数量是很难开展的。

而大型云厂商往往管理几万、几十万服务器,因此具备这样的条件。也因此,云主机故障率能低于物理机(当然,如果什么都不做,云主机故障率一定是高于物理机的)。

如何一起愉快地发展

“高效运维”公众号(如下二维码)值得您的关注,作为高效运维系列微信群的唯一官方公众号,每周发表多篇干货满满的原创好文:来自于系列群的讨论精华、运维讲坛线上精彩分享及群友原创。“高效运维”也是互联网专栏《高效运维最佳实践》及运维2.0官方公众号。

提示:目前高效运维两个微信主群仅有少量珍贵席位,如您愿意,可添加萧田国个人微信号 xiaotianguo 为好友,进行申请;或申请加入技术交流群(技术讨论为主,没主群那么多规矩,更热闹)。

本文作者:佚名

来源:51CTO

时间: 2024-10-02 06:51:42

为什么说云主机比物理机故障率更低?的相关文章

如何判断当前主机是物理机还是虚拟机?

 如何判断当前主机是物理机还是虚拟机? Windows: 在CMD里输入:Systeminfo | findstr /i "System Model" 如果System Model:后面含有Virutal就是虚拟机,其他都是物理机 或者用powershell命令:get-wmiobject win32_computersystem | fl model Linux: 在bash里输入:dmidecode -s system-product-name 或者lshw -class sy

10项指标分析应该选择云主机还是独立服务器

中介交易 SEO诊断 淘宝客 云主机 技术大厅 随着云计算的快速发展,"云"技术在互联网中运用的趋势提升,云主机的概念也火热起来,越来越多的IDC公司为用户提供了云主机服务.大力的宣传,使得用户如何在服务器租用.服务器托管.云主机业务中,用户如何选择适合自己企业发展需求的产品,成了问题? 本文分析在现阶段在中国IDC行业里关于云主机.服务器租用.服务器托管的一些差异. 1.首先关注的是费用投入: 按目前中小企业电子商务需求的中低端配的配置计算,4核至强CPU.4G内存.300G硬盘.最

浅析:1元租用云主机 优势在哪里

本文讲的是浅析:1元租用云主机 优势在哪里, [IT168 资讯]云主机是世纪互联推出的新一代互联网主机服务,不同于传统的主机服务,云主机将计算.存储与网络资源进行了整合,面向客户提供既具备传统服务器性能稳定,品质可靠等优点,又加入了集中化跨数据中心管理等功能,更具备无需IP地址,即可实现远程操作系统安装配置等全新的特性.更低成本--零首付,零押金,按需使用按需付费:快速部署--瞬间即可按需完成"服务器"装配与应用部署:弹性伸缩--可按需扩展,满足业务负载弹性变化的需要:高品质网络分布

元芳,云主机选择,你怎么看?

随着中国云计算产业的不断发展,越来越多的企业投入云计算研发.服务.基础网络设施提供和终端设备制造等产业,一个新的产业链轮廓正日益完备.作为产业链的基础支持,国内IDC企业也已经完成基础云架构,相继推出自己的"云"产品--云主机. 云主机是基于云计算的主机服务,它整合了高性能服务器与优质网络带宽,有效地解决了传统主机价格偏高.资源浪费.数据安全保障不高等缺点,同时,云主机更加灵活.管理更加自主,有效解决了传统主机租用配置升级难.维护成本高等问题,可以全面实现中小企业.个人站长用户省心.省

浅谈云主机行业发展

从2009年第一缕云计算阳光从大洋彼岸照进中国开始,随后的两年,云计算开始在中国互联网行业迅猛发展--以至于我们可以这样说:"2010年是中国云计算元年,2011年是云计算落地年,2012年是云计算应用年".当主机遇上云计算,一个新的名词"云主机"顺势而起,国内各大IDC服务商先后推出云主机. 其实,云主机的概念与技术提出源自于亚马逊,从1995年起,亚马逊基于自身庞大的在线零售平台而积累的IDC基础资源和客户服务优势,经过不断的技术创新,先后推出云主机.云存储等云

浅谈什么是云主机及其优势所在

建设网站的技术成本和硬件成本越来越低,于是很多建站爱好者都选择购买网站空间,搭建自己的专属网站.伴随着主机提供商越泛滥,他们宣传的产品也越来越脱离人们的认知范围,像云空间,免费建站,VPS之类的产品满天飞,很多站长朋友都是云里雾里,知其然,不知其所以然. 在SEO观念越来越普及的今天,很多站长都很关注网站在搜索引擎的表现效果,搜索引擎明确指出,稳定的空间是网站获得稳定排名的基础.于是很多站长购买网站空间时,在到底购买低价虚拟主机,还是费用高昂的服务器,网站站稳定性更好之间纠结.不过很多人认为独立

云主机再现史上最低价 首月仅需49元

中介交易 http://www.aliyun.com/zixun/aggregation/6858.html">SEO诊断 淘宝客 云主机 技术大厅 时代不断地进步,科技也层出不穷,更新不断.就互联网而言,其技术的更新速度更是日新月异.从最初的网络通信到网络传输.网络资源共享,再到现在的云计算技术.云主机租用服务等,无不体现网络技术的与时俱进. 也正是由于网络技术的不断更新,而大众接收和理解网络技术的速度相对滞后,所以导致现在每当提到云主机或云主机租用服务时,仍然有很多人不知所云,感觉云主

借力云主机,看企业如何化云为雨

中介交易 http://www.aliyun.com/zixun/aggregation/6858.html">SEO诊断 淘宝客 云主机 技术大厅 对于云计算,可谓四既熟悉又陌生的一个词,熟悉的是我们现在生活中几乎每天都能看到.听到云计算这名词,陌生的是有不少的对云计算都说不出个所以然来. 但其实很多大企业和政府部门都是云计算的先行着,很久前就尝到了云计算的"甜头",如政府部门工信部早在2010年,就发布了<关于做好云计算服务创新发展试点示范工程工作的通知>

联动天下推出SSD云主机,网站还怕速度脱后腿吗?

中介交易 http://www.aliyun.com/zixun/aggregation/6858.html">SEO诊断 淘宝客 云主机 技术大厅 随着互联网的发展及普及,越来越多的企业利用网络这个快速渠道做营销推广,都取得了不小的好效果,但与此同时,也越来越多的事实证明,在当下电商云集的大市场背景下,传统企业要想成功展开网络营销推广没那么简单.其中注册域名.购买主机.数据编辑及网站优化都需要考虑很多的问题. 今日,小编要针对购买主机进行详细的介绍,企业购买主机要点有二: 1.安全性 在