2013年最严重的云计算中断事故
中国IDC圈7月23日报道:云计算给企业和普通用户带来了很多好处,虽然云计算位于“天空中”,但它们也不能幸免“尘世的错误”。云计算用户都知道,与任何其他类型的技术一样,基于web的服务也会崩溃。如果这些服务背后的供应商足够聪明,你应该不会丢失任何数据,但在服务中断期间,你可能会受到严重影响。让我们来看看,到目前为止,2013年最严重的云计算中断事故。
Amazon主页故障
日期:2013年1月31日;时间:49分钟;亚马逊云计算服务之前也出现过重大中断事故,但我们很少看到该公司自己的Amazon.com主页出故障的情况。在今年早些时候,我们就看到了这个事故:在原本平静的一月的一天,Amazon.com页面在长达一小时内显示的是文本错误消息。从这个消息“HTTP/1.1服务不可用”来看,我们无法判断实际发生了什么事情。有人认为这可能是拒绝服务攻击,但这些说法似乎有些可疑。虽然Amazon从未对此事故正式发表评论,但随后的报告表明罪魁祸首很有可能是其内部问题。
Amazon事故影响
Amazon等在线零售商必须确保在线状态以确保业务的正常运作。从该公司之前的季度盈利来看,一些行业观察家估计,一小时的离线时间可能让该公司错失了近500万美元的收入。Amazon并没有透露他们是如何让业务恢复正常运转,只是指出这次故障只影响了其主页,而没有影响内页,对其AWS云托管操作并没有影响。
Dropbox服务中断
日期:2013年1月10日;时间:约16小时;Dropbox服务的主要卖点是你可以将它视为你的本地硬盘驱动器,所以,当该服务一整天不可用时,后果将不堪设想。今年1月10日就发生了这样的事情:大约在太平洋时间下午3:30,Dropbox承认其服务出现故障,该公司通过Twitter告诉客户,所有客户端同步和文件上传将在“接下来的一小时内”不可用。直到第二天早上7:09,这个问题才得到了解决。
Dropbox事故影响
面对这个事故,使用Dropbox满足其文件存储需求的用户感到非常失望,Dropbox用户在Twitter上表达了他们的不满。一名用户说:“Dropbox崩溃了,用户开始意识到,不能100%相信云计算服务。”Dropbox并没有透露这个事故的具体原因,但是Amazon发出声明,声称这次事故与其亚马逊云计算服务没有任何关系。
Facebook网站中断
日期:2013年1月28日。时间:两到三个小时;在1月28日早上,全球各地的Facebook用户发现他们无法更新其朋友的状态信息。大量用户经常访问Facebook网站,因此,数小时的停机时间不可能不会被发现。本月早些时候,黑客组织Anonymous发布了一段视频,声称其要攻击Facebook,并在上述同一天让Facebook中断。究竟发生了什么?
Facebook事故影响
在长达两到三小时内,人们无法获取其朋友的状态更新。Facebook声称,这次停机事故源自一个DNS问题,这个问题“阻止在浏览器输入facebook.com的用户访问到该网站”,这是很容易解决的问题,并没有任何迹象表明Anonymous参与了这个活动。这次事故只是影响了Facebook的桌面网站,而该公司的移动网站和应用程序则没有受到影响。
Microsoft服务中断,第一波
日期:2013年2月1-2;时间:约两个小时;对于微软来说,二月是艰难的一个月份。在2月1日,该公司的Office 365编辑套件和Outlook.com邮件服务都中断了,用户在约两小时内无法访问这两个服务。一天后,微软的Bing搜索引擎也遭受了近两小时的停机,我们该怎么办?当然是改用谷歌。
Microsoft事故影响
对于Office 365和Outlook.com故障,用户论坛和社交媒体网站都充满了用户的抱怨。而对于Bing故障问题,依赖于Bing的用户肯定非常失望。根据微软表示,这次中断事故是“日常维护出错”的原因。更具体地说,这个问题的根本原因是“设定的网络配置更改”,通过部署“必要的修复措施”就能够减轻该事故的影响。
Microsoft服务中断,第二波
日期:2013年2月22日;时间:超过12小时;与第二次中断事故相比,第一次简直是小巫见大巫。在2月22日晚上,该公司的Windows Azure云存储服务中断,所有安全访问时序输出功能都不可用。其他微软服务(例如Xbox Live、Xbox Music和Xbox Video)也开始出问题,用户无法访问云计算连接的数据或者利用任何捆绑到这些服务的多媒体内容。
Microsoft事故影响
论坛和社交媒体网站再次充满了客户的抱怨。 微软透露过期的SSL证书是这次故障的根本原因(真的吗?!)。两次中断事故,实在是让人头疼。
Google Drive
日期:2013年3月18-19日,时间:约17小时;在3月18日星期一,很多用户在试图访问其Drive文档和文件时,出现加载缓慢或者超时的情况,这大约持续了约三小时。一天后,第二次Google Drive中断让一些用户在约两小时内无法访问该服务。这两天后,Drive再次停机12小时,这真的让用户非常恼火。
Google Drive事故影响
可以想象,论坛和社交网站又是各种抱怨。谷歌称最初的问题与该公司的网络控制软件中的故障有关。该系统显然没有负载均衡,导致该公司的服务器出现不必要的延迟。而这反过来又导致Drive的连接管理系统出现问题。谷歌承诺将修复这个漏洞,调整其负载均衡设置,确保其网络服务之间“更大的隔离度”。该公司还调整了其Drive软件来让该服务在面对延迟和恢复时“更具弹性”。
CloudFare网站崩溃
日期:2013年3月3日;持续时间:大约一个小时;CloudFare的业务主要围绕帮助客户保护和加速网站,但在3月3日早上,该公司自己的网站以及所有的服务都出现故障,导致785000个其他网站崩溃,包括Wikileaks、4chan以及一些政府网站。
CloudFare事故影响
在大约一小时内,当你试图访问任何CloudFare连接的网站时,你都会得到一个“无法路由到主机”的错误信息。CloudFare公司声称边缘路由器(连接CloudFare的系统到互联网)的系统故障是这次事故的主要原因。虽然几台路由器的崩溃通常会导致流量转移,但在这种情况下,一个漏洞能让每台路由器脱机。工程师发现了有问题的代码,清除掉了代码,然后需要等待14个不同国家的23个数据中心重新启动所有路由器。
Dropbox再次出现故障
日期:2013年5月30日;时间:约90分钟;在五个月正常运转之后,Dropbox在5月底又出现了故障。这次,该服务中断约90分钟,让客户无法访问其文件或者上传任何新的材料。
Dropbox事故影响
在经历1月份16小时的宕机事故后,人们似乎有点能够接受该服务再次宕机的事实。幸运的是,这次事故并没有持续太长时间。面对2013年第二次故障,Dropbox比上次更加沉着,只是表示其服务已经恢复正常,并对易造成的任何不便,表示道歉。
Twitter服务中断
日期:2013年6月3日;时间:约45分钟6月3日,Twiter用户无法访问该服务来发送或读取内容。在大约25分钟后,服务有所恢复,但仍然很缓慢。
Twitter事故影响
在Twitter无法使用的时段时间,Google+可能出现了高峰,所有的人都在询问其他人Twitter是否可用。Twitter表示在发送Fail Whale到该网站的“日常更改”中出现了一个错误。工程师在确定这个问题后,取消了这个错误的更改,服务很快就恢复了正常。(邹铮编译)感谢观看!希望中断事故越来越少。