Amazon S3故障:服务水平协议能带来信任吗?

Amazon Web Services(AWS)中的简单存储服务(Simple Storage Service,S3)是一个被很多热门网站使用的云存储平台,其中包括Twitter、G.ho.st和37signals的Basecamp。最近S3经历了一次严重的故障。故障发生在S3分处不同地理位置的三个据点中的一个,持续时间超过两小时。

在AWS开发者讨论版上,有些人开始因这次故障而提出AWS是否可靠的问题:

S3服务很出色,但这次事件证明了我们不能依赖它。这次是个大问题,尤其是因为服务停顿了这么长时间。

很快就有人指出S3的可靠性一直以来都保持着良好的记录:

在我加入服务的将近一年时间里,这是我经历的第一次故障。

InfoQ采访了很多S3的长期用户,发现他们对于S3的可靠性的印象是一致的。在过去的一年里,只出过一两次小毛病,持续时间不过2分钟。

Amazon提供了一种S3的服务水平协议(Service Level Agreement,SLA),保证“每月99.9%的正常运行时间”。Amazon从去年10月开始提供SLA,而S3是AWS总共11项服务中目前唯一提供SLA的。Amazon的SLA对于云存储方案有什么样的意义?

可能意义并不大。S3 SLA保证一个月里所有以5分钟为单位的时间片中,平均有99.9%是可用的。SLA容许的最遭情况等于每月有40分钟不可用。这种可靠程度比起金融应用或者医疗设备的要求还差了好几个数量级。不过在半个小时里收不到Twits对于大多数人来说只是不足挂齿的小麻烦。

如果达不到SLA的承诺,Amazon会提供服务补偿,但对于收益和声誉全都系于互联网的用户来说,Amazon的补偿只是聊胜于无。如果达不到99.9%的服务水平,那么Amazon将减免下个月10%的费用。如果可用性下降到99.0%以下,换算后相当于一个月内至少有将近7个小时无法服务,那么Amazon将减免25%的费用。为了看得更清楚一点,我们来举个例子。假设一个用户存放了500G的数据。把500G数据放进S3并且在一个月内全部数据都使用10次的话,总共的费用大约是$1000。如果发生5小时的故障,那么该用户将得到$100的退款。如果故障时间从7个小时到一整个月的话,该用户将得到$250的补偿。

对于大多数需要利用云计算资源的应用来说,SLA提供的保障没多大意义。对于决心舍弃其他服务采用S3的人来说,Amazon的声誉和它一直以来的可靠记录比SLA更重要。

SLA的鸡肋性质可能正好说明了为什么SaaS计算的金牌代表Salesforce.com不提供SLA。Salesforce在“trust.salesforce.com”网站上提供关于服务健康状况的有意义的实时信息,通过这样来建立起对他们的服务的信任。Salesforce.com的健康监控网站也是在一次类似的故障之后才建立的。服务提供商如何处理事故也会对满意度产生重大影响,因为人们都知道即使是最完美的系统也避免不了故障。比如Technorati处理博客数据混乱事件时的做法就受到了表扬。

Amazon从这次事件吸取了教训。这次故障表现出了Amazon的技术服务团队的高效率,大多数客户都认为他们是合格的,但同时也揭露出了他们在系统健康状况信息的沟通上存在严重缺陷。

InfoQ就这次故障采访了Amazon的发言人。Amazon看起来已经对问题所在有了头绪,而且已经尽早采取了改正措施。

在其中一个据点,我们开始观察到来自多个用户的身份验证请求在上升。虽然我们小心地监控了总请求量,观察到总请求量仍然处在正常范围内,但我们没有注意到身份验证请求所占的比例。这点很重要,因为这些加密请求比其他类型的请求消耗更多的资源。在很短的时间内,我们开始发现其他用户的身份验证请求数量也在显著增长。最后我们还没来得及增加新的服务能力,身份验证服务就被推到了极限。除了处理身份验证请求,Amazon S3处理的每一个请求都要经过身份验证服务进行帐号验证。因此导致了那个据点的Amazon S3没法处理任何请求。

另一方面,有些用户对故障期间缺乏沟通感到很失望。Viewbook.com的拥有者Rien Swagerman告诉InfoQ:

我觉得很惊讶……在发生这种事情的时候Amazon只给出了很少一点信息。你不得不在论坛里费力发掘才能了解一点状况,而论坛在故障期间又挂掉了没法发贴。

Amazon的发言人告诉我们Amazon.com以及他们的开发者讨论版也一样受到了故障的影响。Amazon身体力行使用自己的产品,一般来说是件好事,不过云计算可能会颠覆这种思维。

为了平息顾客在沟通水平方面的抱怨,Amazon希望“很快”推出一个服务水平报告工具。云计算和SaaS技术仍然在发展之中,S3故障显然只是成长中的阵痛。FocusFriends.net的Ivo Beckers说:

还没有别的厂商能以这样的价格提供这种质量的服务。实际上,我很高兴发生了这件事……它会刺激Amazon提供更好的服务。

Amazon在萌芽中的云计算市场上确实正受到挑战。年初的时候EMC启动了EMC Fortress服务,这是他们利用对Mozy的收购而发展出的一个针对备份的SaaS存储平台。最近EMC又宣布雇佣微软的前任高管Paul Maritz来领导一个新的云设施和存储部门。EMC很可能把目标指向比Amazon更高端的市场,在价格/可靠性上提供更灵活的选择。

架构师怎样才能在保持低成本的同时提高可用性呢?在Amazon开发者讨论版上,很多人都在为自己的网站的可靠性完全依赖于S3而感到悲哀。另外一些用户受到的影响较小,因为他们虽然用S3来存储记录,但在本地保留了一个缓存副本。InfoQ也用S3来存储视频,不过在一个EC2实例上保留了本地缓存,因此InfoQ.com没有受到这次故障的影响。除了能提高可用性,本地缓存还降低了费用,因为直接从S3传输的数据量减少了。

你在用S3吗?你用什么办法来保证可用性呢?

查看英文原文:Amazon S3 Outage : Do SLAs Lead to Trust?

时间: 2025-01-27 17:54:42

Amazon S3故障:服务水平协议能带来信任吗?的相关文章

Amazon S3存储服务故障频发 引发云存储质疑

Amazon Web Service公司的S3存储服务在星期天遇到了大约8小时的服务故障,导致依赖S3进行文件存储的在线公司无法接受服务. S3在二月份也经历了一次历时大约两小时的类似故障,这次事故引起许多人置疑云计算模式的可靠性. Amazon在一份声明中说它对于S3在过去两年多以来的运行性能感到非常自豪,而且客户基本上非常满意.Amazon的声明称:"但是任何宕机都是不可接受的,在达到完美以前我们都不会自满". "作为一个分布式系统,S3的不同组件必须时刻感知对方的状态&

Amazon S3故障让客户对云计算生疑

Amazon Web Service的Simple Storage Service(S3)在星期天出现了服务故障,故障持续了8个小时之久,依赖S3进行文件存储的在线公司因此蒙受了损失. S3在2月份的时候也出现过一次类似的故障,当时该故障持续了两个小时,这一事故让很多人开始置疑云计算模式,虽然这一模式目前日渐流行. Amazon在一份声明中表示,该公司对S3在过去两年多里的运作性能感到非常骄傲,客户通常也会感到很满意.Amazon在声明中表示,"但是任何当机都是难以接受的,我们永远不会感到满意,

云策略开发创建可供多个合作伙伴使用的服务水平协议

外部云计算http://www.aliyun.com/zixun/aggregation/14189.html">服务水平协议专注于提供商的数据中心和网络基础架构的特征.尽管公司可以为其私有的平台即服务 (PaaS) 设置云计算 SLA,使 SLA 基于提供商公共的基础架构即服务 (IaaS),但公司可能希望更多地掌控操作系统.服务器和网络基础架构,从而解决一些问题(比如频繁的服务中断)的根源. 通过调用附加到外部 SLA 的附加条款,公司可以将私有 PaaS 应用程序迁移到其内部数据中心

通向云计算的关键:服务水平协议

很多人在讨论云计算问题时,焦点都集中在技术.软件或者又推出了什么样的新型云计算服务上,但是大家都忽略了一个最基本的值得我们讨论的问题:服务水平协议.由于迁移到云环境,就意味着要从服务角度来考察计算,因此消费者和企业用户首先应该考虑的就是服务水平协议,而不是什么闪亮的高科技元素. 从关系角度考虑云计算:以往客户和厂商之间有的关联很远,在经过短暂但富有激情的销售环节后,就是漫长遥远的等待新版本的过程.而在云环境中,客户和厂商共同生活在一起,没有时间的间隔.鉴于这种事实,最重要的就是要防止一方退出对另

这些云服务水平协议实践好得不要不要的

关于云服务水平协议的概念有一点可以让人感到欣慰.那就是它是白纸黑字的表明了云供应商对你的应用在几乎任何时间内都可以正常运行的一种承诺. 不过,虽然云服务水平协议也许对保证云服务安全性来说是不可缺少的组成部分,但却很少象看上去那样严谨.事实上,专家认为用户既需要了解服务水平协议的最佳实践,同时也要意识到各种潜在的问题. 云计算SLA最大的问题是,它们还没有演变为一个行业标准,Michael S. Mensik,一家总部位于芝加哥的律师事务所Baker & McKenzie的合伙人表示,理由是基于该

如何定义混合云计算的服务水平协议?

公共云计算.私有云计算还是混合云计算:最终用户并不关心他们的IT服务被托管在哪里,除非服务出现故障或者数据丢失,那么压力又压在IT部门的身上了.随着IT组织越来越多地实施了混合云计算,定义SLA的工作也变得越来越困难.但是,这也不是不可能完成的任务.拥有一点先见之明和深刻理解,IT 部门就能够制订出满足服务水平.监管合规.安全性以及治理需求的云计算SLA. "一个混合云计算意味着多种服务的组合--一些公共的,一些私有的--它们在一起协作就好像它们是一个单一的系统,"竞争分析公司Hurw

如何利用Amazon S3服务将文件备份到国外

如果担心自己网站/Blog内容遇到不可抗力的用户可以考虑一下利用s3的服务将文件远程备份到国外.去年AMazon推出了一系列基于Web的服务,其中S3(Simple Storage Service)是网络服务的存储和带宽传输,发布时的价格为: # $0.15 per GB-Month of storage used. # $0.20 per GB of data transferred. 具体成本可以参考一下Jeremy的在家备份和使用S3的比较,算算电费和灾难恢复等可靠性指标还是用s3比较便宜

DragonDisk 0.97发布 Amazon S3服务的文件管理器

Dragonhttp://www.aliyun.com/zixun/aggregation/29800.html">Disk 是一个Amazon S3服务的文件管理器.它支持备份.共享,并通过一个直观的界面组织你的数据.功能包括:多窗口,Amazon S3帐户之间的复制/移动,一个多线程的HTTP/HTTPS的引擎,拖放,重命名文件和文件夹,文件名过滤器,BiTorrent,限制时间响应,签署网址,文件的完整性控制,元数据编辑器,ACL继承详细的操作日志,等等. DragonDisk 0.

DragonDisk 0.90发布 Amazon S3服务的文件管理器

DragonDisk是一个Amazon S3服务的文件管理器.它支持备份.共享.并通过一个直观的界面组织你的数据.功能包括:多窗口,Amazon S3帐户之间的复制/移动,一个多线程的HTTP/HTTPS的引擎,拖放,重命名文件和文件夹,文件名过滤器,BiTorrent,限制时间响应,签署网址,文件的完整性控制,元数据编辑器,ACL继承详细的操作日志,等等. DragonDisk 0.90版本增加了快速启动指南,在版本0.88中引入回归已得到纠正.提高账户管理功能. 软件信息:http://ww