从亚马逊云服务故障中吸取的七个教训

亚马逊云服务故障引发了人们对云计算的担忧,快四天了,依然没有完全恢复。那么我们能从中吸取哪些教训呢?

  1. 认真阅读云服务提供商的服务水平协议

  令人叫绝的是近乎四天的故障并没有违反亚马逊的EC2服务水平协议(SLA),FAQ部分写着“在一个区域内一年以内保证99.95%的可用性”。而这次发生故障的是EBS和RDS服务,而不是EC2,所有故障都发生在单独区域,从法律角度讲该协议没有问题。 这一点值得思考。

  2. 别认为服务商的保障可以做到万无一失

  很多受影响用户向亚马逊支付额外费用把自己的服务托管在多个可用区(Availability Zone)。亚马逊实际上也推荐这种做法。亚马逊称每个可用区都独立运转,有独立的基础设施,非常可靠。一个可用区的发电机或冷却系统出现问题不会影响其它数据中心。此外,这些区域之间有物理隔绝,即便遇到、龙卷风、洪水等自然灾害也只会影响一个可用区。不幸的是这只是一种技术指标,并没有包括在合同条款。亚马逊消除此次事件的负面影响还需要一段时间。

  做到事后诸葛亮不难,但亚马逊面对这种故障时的脆弱或许本可以通过深入的尽职演练加以避免。正如亚马逊竞争对手Joyent的首席科学家 Jason Hoffman 所言:“这次不是速度变慢,不是云计算失败,也不是成长的烦恼,这是亚马逊的基础框架决策导致的可预见后果。”

  3. 大部分顾客仍会原谅亚马逊的失败

  不管所受影响多么严重,人们一直在赞美亚马逊,因为亚马逊帮助他们用低廉的成本和少量的投入运营者强大的基础设施。很多人在批评的同时也会给予褒奖,比如 BigDoor表示:“AWS帮助我们以极低的成本快速升级一个负责的系统。在任何时候我们都有运转良好的12台数据库服务器,45台应用服务器,6台静态服务器和6台分析服务器。如果流量或处理能力超了我们的系统会自动升级,如果不需要就会自动降级,从而节省费用。”

  4. 除了云服务提供商的恢复能力之外,还有很多补救措施

  正如来自O’Reilly的 George Reese 指出,如果你的系统在本周的亚马逊云服务故障中挂彩的话,那不是亚马逊的错误。或者你把这种故障看作是可接受的风险,或者你没能按照亚马逊云计算模式进行设计。查看亚马逊顾客使用的技术、避免故障非常有用。

  Twilio和NetFlix在此次故障中安然无恙,前者是因为根据亚马逊的技术规范进行了出色的设计,后者虽然把所有的基础设施都托管在亚马逊云服务中,但通过使用多个数据中心的服务来确保服务的可靠性。

  5. 增加额外的恢复能力需要更高成本

  聪明的用户和Paas服务商应该准备多套方案。无论如何你都应该备份到亚马逊S3存储服务上,这样一旦出现问题,你可以从S3中恢复。

  6. 权衡好利弊关系可以帮助你提出问题

  在选择一家云服务之前要提出一些问题,从而判断该服务是否靠谱。

  比如你可以问这样的问题:你们会通过关闭某些基础设施来检测你们的自动备份能力吗?当然,你最好能亲眼看到类似测试。

  7. 缺乏透明性是亚马逊的“软肋”

  很多受到影响的顾客都抱怨在故障期间亚马逊没有提供足够的有用信息。BigDoor CEO Keith Smith 说“如果亚马逊能预料到他们目前遭遇的故障的话,我们就可以很快恢复我们的系统了”。GoodData 的 Roman Stanek 则呼吁亚马逊推倒神秘的围墙:

  我们的开发运营人员不知道如何管理系统的性能、可扩展性、以及最重要的应急恢复能力。“合理的”服务水平协议和“99.999%承诺”之间的区别就是临时抱佛脚和完全符合我们各自运营流程之间的区别……在云设施中,IaaS,PaaS,SaaS和顾客之间不应该有沟通围墙。

  亚马逊在未来几周内的挑战就是如何提供用户所需信息,增强自己的恢复能力。如果亚马逊无法满足这种需求,而且其它公司做得更好的话,它或许会渐渐失去今天在Iaas领域的统治地位。

时间: 2024-10-03 08:37:10

从亚马逊云服务故障中吸取的七个教训的相关文章

亚马逊云服务故障尚未得到彻底解决

北京时间4月23日早间消息,亚马逊周五表示,其网络服务(Web services)周四上午出现的技术故障依然未彻底解决,服务中断已超过36小时,不过该公司预计可在当地时间周五晚些时候完全恢复. 亚马逊称,网络服务的故障修复工作正在缓慢地进展当中.一些网站正在等待亚马逊服务的全面恢复,由于无法使用该服务而采取了应变计划.美国东部时间下午5点15分,亚马逊在网站上发布最新消息称:"我们恢复工作正在取得进展,更多的客户都证实他们的服务已恢复.我们估计,未来三到四个小时里可基本恢复". 亚马逊

亚马逊云服务故障 Netflix流媒体服务平安夜中断

http://www.aliyun.com/zixun/aggregation/16449.html">CNET科技资讯网 12月115.html">26日 国际报道 Netflix表示,在圣诞平安夜里,其流媒体服务出现中断,影响到了许多用户"但不是全部用户". Netflix流媒体宕机事件出现在当地时间12月24日下午1点之前.约三小时后,Netflix在Twitter上道歉称: "很抱歉,我们在圣诞节前夕出现了宕机事件,这是一个可怕的时间!

NEC推出可用于亚马逊云服务的防火墙软件和集群软件

近日,NEC针对亚马逊网络服务(以下简称AWS),升级了 WAF防火墙软件"InfoCage SiteShell"(注1)和高可用集群软件"EXPRESSCLUSTER",以实现在AWS上的安全运行. &http://www.aliyun.com/zixun/aggregation/37954.html">nbsp; 在云服务上使用各种业务系统和关键 业务系统,需要非常可靠的安全对策.故障对策和灾害对策.NEC的这两款软件在国内外一直被广泛应

D-News|英特尔首推融合现实,亚马逊云服务市场占比超3成

◆ ◆ ◆ 业界巨头 亚马逊云服务规模超微软IBM谷歌三家之和 市场研究机构Gartner发布的一份最新报告称,在今年第二季度云基础服务市场上,亚马逊市场份额达到了31%,而微软.IBM.谷歌三家公司的规模仅占23%.亚马逊推出的"基础架构即服务(IaaS)"."平台即服务(PaaS)"等系列基础云服务,帮助该公司在云服务市场份额不断保持增长,从而确保其自2006年以来一直在该市场保持领先.尽管亚马逊在云服务市场保持绝对领先地位,但包括微软.IBM和谷歌在内的其他竞

亚马逊云服务营收未来三年有望增长两倍

最近几年,亚马逊云服务一直是亚马逊增长的一大动力.在最近两个季度,该服务营收同比增长了近80%,整个2015年的营收更是高达78亿美元,比2012年的18亿美元增长了三倍之多. 如今,在华尔街分析师的眼中,亚马逊云服务服务的增长势头不会在近期内减速. 美国投资银行Pacific Crest在周二发布的一份研究报告中预测,在未来三年内,云服务服务的营收将增长两倍,预计到2018年时将达到250多亿美元. Pacific Crest的这一强劲预期主要是根据亚马逊近期宣布的云服务相关大规模拓展计划而得

分析称亚马逊云服务或成10亿美元级别业务

据国外媒体报道,亚马逊云服务部门可能会成为它的下一个10亿美元级别的业务.下周二,这个互联网零售商将会发布财报结果,届时分析师们将会密切关注这个神秘部门的增长速度. 有潜力做大做强 亚马逊云服务部门(Amazon Web Services,简称AWS),创立于2006年,起先只是一个小部门,主要向新兴技术公司.博客和网站销售计算能力和数据存储服务.现在,这个部门的服务对象包括美国宇航局.美国国务院.西门子.美国辉瑞公司和纳斯达克. "AWS很有潜力做大做强."美国晨星公司(Mornin

谁来做硬件创业领域的“亚马逊云服务”?

从Jawbone到Pebble和Ouya,业界近期已经撰写了大量有关硬件复兴的文章.最近一段时间以来,投资者和媒体都对硬件项目产生了新的兴趣,尽管如此,当前,产品从原型到批量生产仍面临巨大的挑战. 产品层面的创新固然有重要意义,不过有时候,产品面临着的问题是巨大的发行和物流障碍.这些障碍存在于产品元件外包生产之中,同时也存在于产品的质量控制之中,甚至在运输之中,而这些问题对产品的未来有着重要影响. 发行平台将会从很大程度上加速硬件的革新--例如在硬件制作过程中的每一步都提供模块化的选择方案,包括

亚马逊云服务宕机事件警示企业,不要把鸡蛋放在一个篮子里

  编者按:前段时间的亚马逊服务中断,对科技界造成了很大的震动.本是业界巨擘的亚马逊,却在这个事故中栽了跟头,这引发了其客户及相关人员的深思.虽然亚马逊在云计算领域一家独大,但该领域在微软.谷歌.IBM等努力下也迎来了百花齐放的春天.Nick Wingfield在本文分析了亚马逊服务中断事件的影响,并且对这一事件进行了反思. 去年在德国汉诺威举办的展会上的亚马逊网络服务馆. 在第四季度,亚马逊占全球公共云服务市场的40%,与此同时,微软占了11%,谷歌和IBM分别占了6%. 在过去的几年里,有很

跟亚马逊云服务竞争,IBM和SAP很心酸

昔日两大科技巨头IBM和SAP,都在最近召开了令人郁闷的季度财报电话会议.但最令人郁闷的地方是,这两家公司都把希望寄托在正在蚕食自家业务的云计算上. 这下子,IBM和SAP就不得不跟"利润破坏机"亚马逊云服务AWS硬碰硬了.PostGIS开源空间数据库联合创始人保罗?拉姆齐(Paul Ramsey)提出了一个好问题:"在亚马逊历来的竞争对手中,有谁发财致富了吗? " 答案是"没有谁". 老牌IT厂商和新的云 在一份声明中,SAP表示,"