AWS S3宕机暴露Amazon规模级互联网中的致命瓶颈

Amazon的S3服务宕机事件无疑是送给Azure与谷歌、内部IT、混合云技术支持商以及多云网关产品的一份大礼。但在此之外,其亦暴露出Amazon客户在业务连续性与灾难恢复方面准备不足的问题。

我们当然可以将矛头指向Jeff Bezos,并抱怨AWS的表现令用户失望。然而我们同时应当意识到业务保障的重要意义,且不应将全部管理工作交由服务商负责。客户应当建立一套替代性或者混合云战略。事实上,可供选择的现有解决方案可谓多种多样。

S3(即简单存储服务)为Amazon公司推出的对象存储服务,立足于其AWS公有云。S3宕机事件发生于2月28日上午9:44(太平洋时间),当时其位于北弗吉尼亚州的热门数据中心(美国东一服务区)存储桶发生访问问题并导致错误率上升。对于众多用户而言,其数据在此阶段遭遇无法访问故障,且在持续五个小时的修复期间始终受到影响。另外,Nest视频与部分智能手机应用也受到影响。

对于众多S3应用开发商,AWS原本提供了双服务区数据冗余选项以防止此类宕机事故——但考虑到昂贵的成本投入,大部分开发商并未采用。

除了S3之外,另有其它一系列服务受到影响,具体包括Amazon Appstream 2.0、Athena、CloudSearch、Cognito、ECR (Docker容器注册表)、EMR、Amazon Elastic Transcoder、Elasticsearch Service、Glacier、Inspector、Kinesis Firehose、Lightsail、Mobile Analytics、PinPoint、Redshift、Simple Email Service、SWF、WorkDocs、WorkMail、Auto Scaling、AWS Batch、CloudFormation、CodeBuild、CodeCommit、CodeDeploy、Data Pipeline、Elastic Breanstalk、Key Management、Lambda、OpsWork Stacks以及Storage Gateway等同样处于该北弗吉尼亚州AWS基础设施内的服务。

目前大部分服务已经恢复正常,但仍有部分服务未能上线。具体情况非常复杂,下图所示为AWS EC2(北弗吉尼亚州)美国东一服务区给出的EC2运行状态历史记录:

 

来自AWS北弗吉尼亚州基础设施的EC2状态历史记录。

Amazon公司目前尚未解决这一重大事故的发生原因及过程:

 

AWS 发布状态更新

云计算巨头应当如何挽回损失?

对于Amazon而言,其显然需要将美国东一服务区进行进一步拆分以实现故障转移,而不再单纯依靠位于俄亥俄州的美国东二服务区。另外,其还需要拆分在线公共仪表板基础设施,从而确保其能够在美国东一服务区或其它服务区数据库发生故障时保持正常运作。

对于其它替代方案供应商,此次事故无异于一份大礼。Egnyte公司CEO兼联合创始人Vineet Jain在评论中表示:

互联网与云还远不完美。尽管很多用户认为我们云服务供应商的宕机事故几率已经很低,但问题总会出现,大家不应盲目乐观——Amazon的此次事故再次证明了这一点。无论您是一家因此导致无法进行正常交易的小型公司,还是因此影响到国际业务的大型企业,如果大家完全依赖于云,则其很可能对您的业务造成重大危害。

尽管宕机事故本身显示出AWS在行业内的巨大市场份额占比,但亦同时证明客户为何迫切需要一套混合型方案作为业务辅助。混合型方案仍然是最适合选择将业务交由云端打理的企业的解决方案,而且这类方案能够有效避免与此次事件类似的服务停机、经济损失以及多种其它问题。

很明显,公有云绝非一劳永逸的解决办法。事实已经证明将您的IT运营体系完全交给公有云供应商的数据中心——无论其规模多么巨大——都有可能带来风险。由此得出的结论则非常明确:支付额外冗余成本,从而为客户提供更为安心的使用体验。

回顾整次事件,可以肯定的是受到中断影响的每家客户都没有制定理想的业务连续性与灾难恢复规划。没错,Amazon让各位客户失望了,而这些企业也让自己的客户失望了。

原文发布时间为:2017年3月2日 

本文作者:作者:黄雅琦

本文来自合作伙伴至顶网,了解相关信息可以关注至顶网。

时间: 2024-11-03 21:41:44

AWS S3宕机暴露Amazon规模级互联网中的致命瓶颈的相关文章

AWS S3宕机的启发: 云必须分散化

上周,AWS S3云存储服务中断,互联网圈掀起一番波澜,然而AWS将其因归咎于一名技术人员在例行维修中的失误,关闭了S3子系统的少量服务器,由于一条错误的指令输入,被关闭的服务器比预期要多.事情过去了,但真正的问题是:为什么大量的企业对AWS的依赖度这么深? 随着物联网.5G网络.分布式拒绝服务攻击和基础服务不断地向云基础设施迁移,对AWS的依赖会不会更严重?看到网上的一篇博客,博主是一位男士,他写道,自从家里的自动化设备与AWS连接后就"停止工作了",听起来似乎像是玩笑,但它却涉及到

打错一个字母瘫痪半个互联网!亚马逊 S3 宕机事件缘由

2月28号,号称「亚马逊AWS最稳定」的云存储服务S3出现"超高错误率"的宕机事件. 接着,半个互联网都跟着瘫痪了. 一个字母造成的血案 AWS在昨天给出了确切的解释:一名程序员在调试系统的时候,运行了一条原本打算删除少量服务器的脚本,结果输错了一个字母,导致大量服务器被删.为了修复这个错误,亚马逊不得不重启整个系统(在此之前已经几年都没有重启过了),最终导致了震惊全球的Amazon S3宕机4个小时事件. 我想这名程序猿当时的表情应该是这样的 曾经有人计算过,AWS每宕机一分钟,对亚

新浪宕机暴露开放平台下的潜在危机

中介交易 http://www.aliyun.com/zixun/aggregation/6858.html">SEO诊断 淘宝客 云主机 技术大厅 12月1日上午10时,新浪微博突然无法正常访问,通过网页.客户端访问微博的网友再也收不到新的消息,也无法发送消息.这个故障持续了将近4小时,引起众多网友的不满,预估波及的用户达数千万,直到下午14时才得以全面恢复. 关于微博宕机的原因,新浪三次改口,最终解释是上午访问量太大,因而出现了严重拥堵现象.新浪微博官方发表的致歉声明中解释,微博发布量

Siri宕机暴露苹果云服务短板:或重蹈覆辙

无论云服务多么 先进,http://www.aliyun.com/zixun/aggregation/7236.html">用户界面设计多么简洁,如果连最基本的服务都无法使用,用户根本不会在乎功能是否先进.这一点在类似Siri这样的服务上面 体现地最为明显,一旦苹果服务器陷入瘫痪,Siri就会丧失最为基本的功能.由于Siri依赖于服务器完成语音识别所需要的繁重计算任务,一旦无法与网络连接,这项服务也就没了用武之地. 导语:美国IT网站PCWorld周日发表署名戴维·道(David Daw)

微信宕机引发思考 我们是否都中了微信毒?

上周一,微信突然宕机3个多小时,让 众多手机用户"不知所措", 有的手机用户甚至"刷机"重启,而"我们是否都中了'微信毒'"的讨论亦由此而生.中国互联网信息中心最新的<中国互联网络发展状况统计报告>显示,截至6月底,我国即时通信网民接近5亿人,手机即时通信网民规模接近4亿人.  ←在地铁上,大家低头玩手机,已成为常态.     在我国,坐车.走路.吃饭.开会--各种生活场景,你总会看到人们对着手机刷呀刷.划呀划--在诧异的外国人眼中,

从AWS宕机事件说开去,热闹看完该学会什么?

编者按:本文来自微信公众号"InfoQ"(ID:infoqchina),作者木环,编辑小智:36氪经授权发布. 上周二,因为一条错误指令导致的AWS 宕机事件,影响了大量流行的网站和服务.此事件对用户来说,是服务的中断:对AWS来说,是巨额的损失:对旁观者来说,是宝贵的经验. 想象一下:一个工作日的上午,你使用的云服务的可用性瞬间从平均水平跌至0:丢包率则上升到100%.作为一名用户,你会做出怎样的判断?这应该不是著名的DDoS攻击,因为在遭遇DDoS攻击时,丢包率与可用性是随着时间推

宕机是什么意思?

  宕机怎么读? "宕机"的拼音读法为:dàng ji,简单来说就是读作"当机". 宕机是什么意思? 宕机是计算机术语,口语里面我们简单的把停掉机器叫做down机,转换为汉字是"宕机",但很多人都叫做"当机"/"死机",虽然不规范但却流行. down就是up的反义,就是计算机不能正常工作了,包括一切原因而导致出现的死机. (1)一般情况下指的就是计算机主机出现意外故障而死机; (2)一些服务器故障,包括服务

Bing解释宕机事故:配置错误导致搜索中断

微软搜索引擎Bing 2.0刚刚发布第二天就遭遇了至少45分钟的宕机事件,美国东部时间晚上9点至10点之间,Bing在全球范围内出现宕机,我国用户在访问必应时也无法登录.随后Bing服务已于美国太平洋时间12月3日19:10(即北京时间12月4日12:10)恢复. 微软通过微博(t.sina.com.cn)Twitter确认了这一事故,在线服务部门高级副总裁Satya Nadella随后也在必应官方博客上对事故原因进行了解释.Satya Nadella表示,此次宕机是由于Bing内部测试中导致了

微信“宕机”事件,暴露出微信发展过程中的某些问题

微信"宕机"事件,暴露出微信发展过程中的某些问题,比如腾讯应对危机反应速度太慢.尽管该事件对微信没造成太大的影响,但对微信团队而言,借助于这次的事件好好总结一下是应该的,毕竟快跑之后也应该喘口气. 最近发生的微信"宕机"事件无疑是微信自诞生以来最为严重的一次"危机事件",腾讯官方的解释是"市政道路建设导致网络光缆被挖断所致",然而业界对这种说法并不认可,腾讯也未对外界的质疑进行一一解释,当然,外界的说法只是猜测而已,具体原因估