Amazon Web Service公司的S3存储服务在星期天遇到了大约8小时的服务故障,导致依赖S3进行文件存储的在线公司无法接受服务。
S3在二月份也经历了一次历时大约两小时的类似故障,这次事故引起许多人置疑云计算模式的可靠性。
Amazon在一份声明中说它对于S3在过去两年多以来的运行性能感到非常自豪,而且客户基本上非常满意。Amazon的声明称:“但是任何宕机都是不可接受的,在达到完美以前我们都不会自满”。
“作为一个分布式系统,S3的不同组件必须时刻感知对方的状态”,Amzon在它的声明中说,“例如,这种感知使得系统可以决定将服务请求路由到哪个冗余的物理存储服务器。我们在这些内部系统的通信上遇到了一个问题,使得这些组件无法正确地互动,因而无法成功地处理客户请求。在寻找了几种替代方案后,我们的团队决定必须让服务离线,以便恢复到正常的通信,然后再将服务上线。这些是非常复杂的系统,因此一般要花一些时间来寻找这种情况下的根本原因——当我们完全调查好了此次事件之后,我们将为我们的客户提供更多的信息”。
自从S3于2006年三月推出以来,有许多公司已经将至少一部分存储架构外包给了AWS,这些公司包括37signals、YouOS、SmugMug、ElephantDrive和Jungle Disk等。
SmugMug使用S3来存储它的客户的图片,该公司的首席执行官Don MacAskill很快为AWS辩护。“Amazon的S3——SmugMug的主要存储提供商——目前遇到了一些问题”,他在星期天的一篇博客贴文上写道,“因此,很大一部分SmugMug所存储的图片和视频现在处于离线状态。过去,Amazon表现得非常稳定。包括这次事件,在我们同Amazon打交道的两年多时间中,这样的事件发生了三次。我预计,和前两次一样,他们的服务很快就会恢复”。
MacAskill强调他对AWS的信心没有动摇,而这种服务故障“是很少见,相隔时间很长,持续时间很短而且能够正确处理的”。
MacAskill从AWS的一开始就是它的坚定拥护者,这也就能解释为什么Amazon过去两年中一直都把SmugMug放在客户参照里,而且继续将该公司放在它的客户案例研究文档中。
根据一位Amazon管理人员的说法,AWS和SmugMug之间没有任何营销关系或者交换。
在AWS S3论坛上,其他的S3用户的看法则更加具有批评性。
一位笔名为“David Campano”的贴文者写道“我使用S3来提供Flash文件已经大约六个月了,但是由于过去两个月我所遇到的问题,现在我越来越依赖我自己的架构”。
“我过去错误地以为S3是一种非常高可靠性的服务”,一位笔名为“iehiapk”的贴文者写道,“我们现在可能必须评估其他的服务。这使得我们看起来像业余者似的”。
“我很可能还会继续使用它们的服务,但是我也将部署其他类似的服务,这样如果发生类似这样的事情,我们也可以恢复”,一位笔名为“M. McQuade.”的贴文者写道,“我们已经有一个内部备份,但是当我们的存储需要增长时,这个备份很难扩展。我们将需要两个‘S3’”。
其他的S3用户还抱怨S3服务水平协议(SLA),该协议要求需要服务信用的客户必须通过电子邮件来申请退款。“我们不应该通过给Amazon(纳斯达克代码:AMZN)发电子邮件来获得SLA信用”,一位笔名为“Sam Beckett.”的贴文者写道,“它应该给每个人自动完成”。
S3 SLA规定如果每月正常运行时间低于99%,那么客户可以得到25%的服务信用。Amazon无法提供单个的每月正常运行时间,因为每个客户的这个数据都不同。按7月份744小时计算,任何超过7.44小时的故障都意味着该月正常运行时间低于99%。
根据S3的状态页,目前一切都良好。