打错一个字母瘫痪半个互联网!亚马逊 S3 宕机事件缘由

2月28号,号称「亚马逊AWS最稳定」的云存储服务S3出现“超高错误率”的宕机事件。

接着,半个互联网都跟着瘫痪了。

一个字母造成的血案

AWS在昨天给出了确切的解释:一名程序员在调试系统的时候,运行了一条原本打算删除少量服务器的脚本,结果输错了一个字母,导致大量服务器被删。为了修复这个错误,亚马逊不得不重启整个系统(在此之前已经几年都没有重启过了),最终导致了震惊全球的Amazon S3宕机4个小时事件。

我想这名程序猿当时的表情应该是这样的

曾经有人计算过,AWS每宕机一分钟,对亚马逊造成的损失是$66,240美元...而这还不包括那些依靠AWS来运行自家服务的公司们的损失。所以这次接近4小时的宕机造成多大的损失,只能请大家自行脑补了。

程序员的世界就是这样的不近人情,一丁点儿错误就足以酿成大错。在这次“一个字母造成的血案”之前,刚刚发生了Gitlab程序猿用错一条命令误删了整个数据库的悲剧。再久一点以前,欧洲宇航局的的火星探测器因为传感器失灵了仅仅一秒钟,就造成探测器在火星表面坠毁,历时数年的探测计划功亏一篑。

所以,当你身边的程序员为了一点点小事较真的时候,你一定要理解:魔鬼都藏在细节里啊!

当S3宕机时,你才明白AWS多么强大

几年前,Google.com曾有一次宕机了一个小时。在那一个小时的时间里,整个互联网的流量减少了40%。当时有人感慨:Google一家就是半个互联网。如今,“半壁江山”的江湖地位似乎要归属于亚马逊了。

AWS是云计算领域全球的领导者,而S3又是AWS历史最久的服务,可以说是AWS的基石。很多AWS提供的其他服务都依赖于S3云存储,比如EC2,Lambda 和 EBS 等,所以这次宕机影响巨大。据最近的统计显示,全球共有148213个网站和121761个独立域名在使用AWS S3服务。

就拿这次事故来说,很多人一觉起来发现手机里的歌听不了,电影看不了,股票不能交易,App也没法下载,就连家里的智能电器都纷纷罢工(主页君家里的电子门锁都失灵了!)云计算听上去离生活很远,其实离我们很近。

这次S3宕机影响到无数家公司和服务

在这里罗列了几个著名的:

Apple App Store & icloud

Airbnb

Expedia

Netflix

Quora

Amazon Echo

Amazon.com

Nasdaq

就连AWS自己用来公布服务状态的 AWS Dashboard 都受到了影响,在一段时间内只能通过Twitter账户来发布更新状态。这次S3宕机事件的影响范围之广,可见一斑。

“打错一个字母瘫痪半个互联网”是怎样的感受?

在今天亚马逊披露了这起事故背后的原因后,很多人心里都会有一个疑问:

这个倒霉的程序员会被开除吗?

关于这一点,虽然主页君肯定没法做出准确的判断,但还是愿意给出我们的猜测:不会。

首先,这名程序猿打错命令有没有责任?肯定有。但是,在处理高度可靠的云服务时,每一次操作都应该按照严格的程序,每一个命令都要经过足够的审核。除非这名程序员在操作过程中因为偷懒省略了一些必要的步骤,否则,这次事故更多是系统的责任,因为系统没有足够的机制来防止错误的发生。人,都是会犯错的,只有机器不会。

其次,oncall(值班)的程序员一边操作着影响巨大的的系统,一边还需要争分夺秒的解决问题,肩上的压力之大难以想象。虽然这次事故确实是由于一个打错的字母造成的,但如果事故发生后,作为云服务领航者的亚马逊不是勇敢的承担这笔学费,而是把锅甩给某一个程序员身上,那就太让人寒心了。

我甚至敢断言:如果亚马逊真的做出这样的决定,那么他们在日后的招聘过程中会遇到很大的困难——每个程序员都会三思:我会不会成为下一个背锅的人?

当然,如果这哥们(也可能是姐们)

真的因此被解雇了,想想看——我打错了一个字母,就瘫痪了半个互联网

这牛逼也够吹一辈子了!

最后,主页君想说:程序员这行真的不容易,做云服务的尤其如此,大家且行且珍惜。对受到这次事故影响而心惊胆战了好几几天的程序员们说一句:加油,你们挺住!

本文来自开源中国社区 [http://www.oschina.net]

时间: 2024-10-28 06:12:36

打错一个字母瘫痪半个互联网!亚马逊 S3 宕机事件缘由的相关文章

亚马逊网站宕机约半小时 销售额损失数百万美元

中介交易 http://www.aliyun.com/zixun/aggregation/6858.html">SEO诊断 淘宝客 云主机 技术大厅 凤凰科技讯 北京时间8月20日消息,据VentureBeat网站报道,美国东部时间19日14:50左右,亚马逊网站Amazon.com出现宕机,包括加拿大在内的部分地区零售商的主页也无法加载.此次宕机时间约半小时,当地15:30分左右恢复正常. 各地报告的宕机时长在15.25.40.45分钟不等.据<普吉特海湾商业杂志>(Puge

因亚马逊服务器故障服务中断 都是谁的错?

上周,亚马逊在弗吉尼亚州(Virginia)北部的http://www.aliyun.com/zixun/aggregation/13644.html">云计算中心宕机,导致包括Quora.新闻服务Reddit.Hootsuite和位置跟踪服务FourSquare在内的众多网站都受到了影响.受影响的这些网站都依靠亚马逊的这个云计算中心提供服务. Everyblock网站也是其中一个受影响的网站,但是令人惊讶的是,他们并没有把所有的错归咎在亚马逊上,"坦白地说,我们搞砸了,&quo

亚马逊的反“互联网思维”的营销大道

[Macroview特约]在盖茨做慈善乔布斯离世后,全球科技产业的明星CEO仍还有很多:但毫无疑问,亚马逊的贝佐斯应该是具有独特气质的,是和诸多年轻的天才型创始人略不太一样的明星CEO.这一点,在最近几年里有越来越的多的关注,而随着其自传<一网打尽:贝佐斯与亚马逊时代>的出版,关于贝佐斯和亚马逊的讨论是越发的激烈起来. 亚马逊早已经是全球最重要的科技公司,但这家公司在国内似乎没有那么"红",这对于擅长Copy to China的国内互联网公司是罕见的-亚马逊这家公司很少会创

亚马逊:反互联网思维营销大道

中介交易 SEO诊断 淘宝客 云主机 技术大厅 亚马逊虽然已经是全球最重要的科技公司,但这家公司在国内似乎没有那么"红",亚马逊这家公司很少会创造新鲜的名词和趋势,但这并不影响它的市值和业绩,而资本市场对亚马逊的信任感目前来看是无以伦比的.亚马逊的神奇之处在哪里?跟着人人都是产品经理从营销的角度来看一下. 说起营销,回顾2013年,国内最火的应该就是互联网思维.粉丝经济以及诸如自媒体营销.公司即媒体等等,也有人将上述概念汇总,大概就是以下内 容:①快速迭代,用户参与;②基于海量数据分析

AWS S3宕机暴露Amazon规模级互联网中的致命瓶颈

Amazon的S3服务宕机事件无疑是送给Azure与谷歌.内部IT.混合云技术支持商以及多云网关产品的一份大礼.但在此之外,其亦暴露出Amazon客户在业务连续性与灾难恢复方面准备不足的问题. 我们当然可以将矛头指向Jeff Bezos,并抱怨AWS的表现令用户失望.然而我们同时应当意识到业务保障的重要意义,且不应将全部管理工作交由服务商负责.客户应当建立一套替代性或者混合云战略.事实上,可供选择的现有解决方案可谓多种多样. S3(即简单存储服务)为Amazon公司推出的对象存储服务,立足于其A

从谷歌宕机事件认识互联网工作原理

今天,谷歌服务器经历了短暂的宕机事件,持续大概27分钟,对部分地区的互联网用户造成了影响.此次事件的原因深究起来需要进入互联网络那深邃的.黑暗的角落.我是CloudFlare公司的一名网络工程师,在帮助谷歌从此次宕机中恢复回来提供了一臂之力.下面就是事情发生的过程. 大约在太平洋标准时间2012年11月5号下午6:24分/时间标准时间2012年11月6号凌晨2:24分,CloudFlare的员工发现谷歌的服务中断了.我们使用谷歌的电子邮件等服务,所以,当它的服务不正常时,办公室的人会很快发现.我

《经济半小时》曝光当当网亚马逊销售假冒进口化妆品,当当逻辑略土匪

3月19日,央视<经济半小时>曝光当当网和亚马逊销售假冒进口化妆品后,有关网购化妆品的安全性问题再度成为消费者担心的话题.昨日,卷入其中的多个电商纷纷发布声明,强调自身对入驻商家有严格的资质审查制度,而当当网更是将"矛头"指向国际品牌商,认为正是因为目前很多国际化妆品品牌商不愿开放网络销售授权,而导致国内从事化妆品B 2C销售的电商被迫从不同渠道炒货. 当当网的这一说法,在业内一些人士看来,颇有点土匪的逻辑:自己的产品出了问题,还托词是国际大牌化妆品的不对. 事件涉及多个电

亚马逊的一个最大优势是在美国大多数州都不需要缴纳营业税

消费者可以开车去本地商店立刻购买到某件商品,或者他们支付较少的钱,通过电脑或智能手机下单,然后在第二天早上在家里收到该商品的包裹. 亚马逊在成立后的18年内都极力避免缴纳营业税,为此该公司建立了好几处不同的物流中心.但<金融时报>的一份报告称,亚马逊正在逐渐改变策略,开始在那些依然要征收营业税的地区建立物流中心. 为什么亚马逊要自愿放弃价格优势呢?在接受CNN的采访时,亚马逊的一名发言人拒绝就该报告做出回应.但是<金融时报>认为,亚马逊之所以会这么做,是为了推出网上商品当日到达服务

开淘宝店的看看:如何用互联网思维在亚马逊上卖床垫卖到第一

中介交易 SEO诊断 淘宝客 云主机 技术大厅 Daehee Park和JT Marino两人离开了他们工作的科技初创公司,决定出来自己单干,但是他们选择创业的领域却和自己的专业风马牛不相及,或许现在是时候让"这个传统行业"做些改变了. 这两人选择的是,床垫行业. 长久以来,引领床垫行业的是三家S开头的大企业,他们分别是Simmons, Serta 以及Sealy公司,而这两位专业是数字领域的创业家怎么看都不像是能和床垫业搭上边儿.但如今,Park和Marino已经是Tuft&