从AWS宕机事件说开去,热闹看完该学会什么?

编者按:本文来自微信公众号“InfoQ”(ID:infoqchina),作者木环,编辑小智;36氪经授权发布。

上周二,因为一条错误指令导致的AWS 宕机事件,影响了大量流行的网站和服务。此事件对用户来说,是服务的中断;对AWS来说,是巨额的损失;对旁观者来说,是宝贵的经验。

想象一下:一个工作日的上午,你使用的云服务的可用性瞬间从平均水平跌至0;丢包率则上升到100%。作为一名用户,你会做出怎样的判断?这应该不是著名的DDoS攻击,因为在遭遇DDoS攻击时,丢包率与可用性是随着时间推移而发生变化的。而这种瞬间的停机现象应该是云服务商出现了故障。

上个周二,云计算鼻祖AWS就发生了这样的事故。AWS美国东一服务区基础设施的出入流量瞬间消失。那么,AWS是如何解决这次事故?接下来会有哪些优化举措?技术人应该从中学习到什么经验?

事件回顾

2月28日上午(太平洋时间)AWS发生了服务宕机事件。事件的起因是AWS S3(云存储)团队在进行调试时输入了一条错误指令,本应该将少部分的S3计费流程服务器移除,可是最终意外移除了大量服务器。被错误移除的服务其中运行着两套S3的子系统,从而导致S3不能正常工作,S3 API处于不可用状态。

由于S3负责存储文件,为AWS体系中的核心组成部分,这导致北弗吉尼亚日(美国东一)服务区中,依赖于S3存储服务的其他AWS的S3 控制台、Amazon弹性计算云(简称EC2)新实例启动、Amazon弹性块存储(简称EBS)分卷(限于需要读取S3快照的数据)以及AWS Lambda均受到影响。

AWS的修复动作

一条错误命令直接导致了AWS两套子系统无法工作:

第一套子系统为索引子系统(Index):负责管理该服务区内全部S3对象的元数据与位置信息。此子系统为一切GET、LIST、PUT与DELETE请求正常运作的必要基础。

第二套子系统为位置子系统(Palcement):负责管理新存储空间的分配并需要配合之前的索引子系统以实现正常运作。这套位置子系统用于在响应PUT请求时为新对象分配存储空间。

两套子系统容量被大量移除,发生故障重启,但是S3依然无法正常响应请求。位置子系统依赖于索引子系统,因此AWS选择了按照顺序修复两个子系统,再解决S3和其他服务的问题。

哪些用户受到了影响?

S3于2006年发布,是 AWS 最早的诸多服务之一,官方曾称其具备99.999999999% 的持久性(durability)和 99.99% 的可用性(availability)。

它的一些典型使用场景如下:

存储用户上传的文件,如头像,照片,视频等静态内容

静态网站的托管

当作一个的key value store,承担简单的数据库服务功能

数据备份

大数据分析

S3拥有很多明星用户:Airbnb(处理超过10PB的用户图像)、Nasdaq(支持 FinQloud 的监管记录保留 (R3) 数据存储解决方案和 Query)、Netflix(分发数十亿小时的内容)。

此次事故波及众多公司,外媒的统计名单中A-Z的26个字母全部占满,其中包括Adobe、Docker、GitHub、Slack、GE、Quora等知名公司。在此期间,部分Apple用户们也受到影响;不过苹果一直在打造自己的数据中心,报道称苹果预计斥资五千余万美元进行数据中心的扩建。

对AWS而言,这次事故意味着?

Thousandeyes公司是AWS S3的使用者,产品营销高级主管Nick Kephart在接受采访中认为,根据S3服务水平协议,此次停机(持续达3小时)可能意味着S3已经无法达到协议中指定的99.9%正常运行阈值。因此,美国东一服务区内最具人气的S3服务以及其它受影响AWS服务可能给Amazon带来高达10%的月度营收影响。根据粗略估算,这一服务水平协议违约可能造成数百万乃至数千万美元的损失。

AWS在Amazon公司的财务构成当中扮演着越来越重要的角色;2016年第四季度,AWS为其母公司贡献了高达35.3亿美元营收,利润则为9.26亿美元。

其实除了经济损失之外,这也不失为AWS的技术学习机会。

AWS的技术反思为什么这么久?

存储量庞大

AWS在其官方声明中成虽然S3子系统的有故障承受能力,但是此次事故中涉及的两个子系统再数年来在大规模服务区未曾重启。S3的服务规模快速提升,而对这些服务进行重启并运行必要安全检查以验证元数据完整性,这些流程最终所需时间远超AWS预期。对于此说法,曾经在Amazon工作过的陈皓表示认同,他称AWS没有公布的存储数量级相当惊人;要先恢复索引子系统再恢复位置子系统,就像个人的操作系统从异常关机后启动,文件系统要做系统自检那样,硬盘越大,文件越多,这个过程就越慢。

服务没有被拆分成更小

同时AWS表示,服务需要被进一步分解成更小的单元:S3团队已经计划于今年晚些时候对该索引子系统进一步拆分,很可能立刻着手进行。

为什么Dashboard失效?

从此次事故开始直到上午11:37(太平洋时间),AWS服务运行状态仪表板(简称SHD)上一直无法更新各项个别服务的运行状态,这是由于该仪表板的管理控制台运行依赖于Amazon S3。因此,AWS转而使用AWS Twitter Feed(@AWSCloud)与SHD横幅通知文本发布状态更新,直到重新恢复在SHD之上更新个别服务状态的能力。AWS表示其了解SHD在业务运行期间为客户提供提示信息的重要意义,因此目前已经将SHD管理控制台调整为跨多个AWS服务区运行。

改进措施?

AWS在此次官方声明中不仅公布事故起因、解决过程,而且分析了技术问题并决定了改进措施。大致分为以下两个方面:

事故的发生:大量移除操作不应该如此容易

AWS称其正在根据此项事故进行数项调整,尽管移除容量属于一项关键性操作实践;但在目前的情况下,AWS使用的工具在移除容量时的执行速度过快,已经对此工具进行了修改以更慢进行容量清除。同时,AWS增加了安全措施以防止任何子系统在容量移除后遭遇现有容量低于最低容量需求的情况。此外,AWS也在审查当前使用的其它操作工具,以确保在其中引入类似的安全检查机制。

事故发生后:恢复时间不应该如此漫长

AWS会采以多种技术以确保服务能从任何故障中迅速恢复,其中最为重要的举措之一在于将服务拆分成更小分区(AWS将其称为Cell)。通过将服务进一步分解为Cell,工程技术团队能够评估并全面测试各类大规模服务或子系统的恢复流程。

吃瓜群众应该从中学到什么?

AWS的官方声明最后一段写到:“最后,我们要对此次事故给客户造成的影响诚挚道歉。虽然我们对于Amazon S3长期以来的可用性表现感到自豪,但我们清楚这项服务对于我们的客户、其应用程序、最终用户以及业务的重要意义。我们将尽一切努力从这次事件中积累经验教训,并以此为基础进一步提升我们的服务可用性。”

那么,对于其他人而言,从这次事故中我们能学到什么呢?InfoQ收集整合了三位技术专家陈皓、陈天、Nick Kephart给出的思考整理如下:

要注意Error Handling

当问题出现时,一个普通的 S3 GET 返回什么:

所以AWS 告诉你Internal Error 了。

从 error handling 的角度,陈天认为在写代码的时候都应该捕捉这个异常,然后做合适的错误处理。很遗憾的是,S3 这样的服务是如此基础,就像互联网的水和电一样,大家默认为它永远不会出错。因此,好多工程师干脆不做错误处理。

除了代码编写层面的处理,当云服务商的宕机发生时,尽量控制它影响面。像 Trello连 landing page 都一并挂掉实在不可取,因为起码 S3 影响不到的页面,如 landing page,用户注册 / 登录页面,应该还保持正常服务;而像 Quora的服务,其实是可以准备一个静态化的镜像,一旦出问题,起码让读者可以无障碍地阅读。

尽可能地把动态内容缓存起来,甚至静态化

Redis cache、Nginx cache、HAProxy、CDN 都是把内容缓存甚至静态化的一些手段。陈天认为:尽管多级缓存维护起来是个麻烦,但当底层服务出现问题时,它们就是难得的战略缓冲区。cache 为你争取到的半个小时到几个小时几乎是续命的灵芝,它能帮你撑过最艰难的时刻(这次 S3 宕机前后大概 4 小时,最严重的时候是 11点到1点),相对从容地寻找解决方案,紧急发布新的页面,或者迁移服务,把损失降到最低。否则,只能像这次事件中的诸多公司一样,听天由命,双手合十祈祷 AWS 的工程师给力些解决问题。

云用户应检查核心依赖关系,提升关键性服务的冗余水平

S3是多种Amazon服务的核心组成部分之一。无论是利用其进行简单文件存储、对象存储抑或是用于存储网站或者应用程序中的内容,其间复杂的依赖性都必须会引发级联效应。S3能影响到的组件包括用户会话管理、媒体存储、内容存储、用户数据、第三方对象和自动化机制等。

在Thousandeyes公司的Nick Kephart看来,云用户应检查核心依赖关系,提升关键性服务的冗余水平。AWS的系统在构建当中具备冗余特性,能够实现跨数据中心自动复制存储对象与文件。而作为另一种冗余层,云用户需要利用额外AWS服务区或者其它云服务供应商以彻底避免此类事故;不过这会增加大量管理复杂性与成本支出,因为跨环境间的数据同步工作需要由云用户负责打理。大多数企业并没有选择上述选项,可是单纯的数据备份在数小时的短周期内并不能发挥作用。

虽然面向云环境的迁移确实能够在稳定性与弹性方面为企业带来巨大帮助,但是各种不易被发现的依赖性也因此增加,单一服务失败可能引发大规模服务瘫痪。Nick建议云用户的开发与运营团队审查与云服务供应商间的核心依赖关系,制定策略以监控各项服务可能受到的影响,同时调整现有架构以提升关键性用户的冗余水平。

故障演习很重要

对于这次事件,陈皓在其博客中表示美国东一区作为老牌的服务区拥有海量对象,能在数小时恢复已属不易,并且幸运的是没有丢失重要数据。

陈皓重申了其观点:一个系统的高可用的因素很多,不仅仅只是系统架构,更重要的是——高可用运维。并且,他认为对于高可用的运维,平时的故障演习是很重要的。AWS 平时应该没有相应的故障演习,所以导致要么长期不出故障,一出就出个大的让你措手不及。比如,Facebook每个季度扔个骰子,随机关掉一个IDC一天。Netflix 有 Chaos Monkey,路透每年也会做一次大规模的故障演练——灾难演习。

在陈天看来,这种容错的操练适合大一些且工程团队有余力的公司。为什么Netflix 重度使用 AWS,却在历次 AWS 的宕机中毫发无损?其实Netflix之前也深深地被云的「不稳定性」刺痛过,而如今他们的 Chaos Monkey(之后发展为 simian army)服务,会随时随地模拟各种宕机情况,扰乱生产环境。比如说对于此次事件的演练,可以配置 simian army 去扰乱 S3:simianarmy.chaos.fails3.enabled = true。

这样,这群讨厌的猴子就会在不知情的情况下随机把服务器的 /etc/hosts 改掉,让所有的 S3 API 不可用。如此就可以体验平时很难遇到的 S3 不可访问的场景,进而找到相应的对策(注意:请在 staging 环境下谨慎尝试)。

处理危机的方式能看出一个公司的高度

陈皓表示非常喜欢GitLab、AWS这样向大众公开其故障及处理流程,哪怕起因是一个低级的人为错误,也不会掩盖、不会文过饰非。AWS公布的后续改进方案都是为了让系统更加高可用,这是很技术范儿的表现。恐怕对比国内公司对于此类故障,基本上会是下面这样的画风:更多更为严格的变更和审批流程,限制更多的权限系统和审批系统,更多的人进行操作,使用更为厚重的测试和发布过程,惩罚故障人,用价值观教育工程师。

在陈皓看来——如果你是一个技术公司,你就会更多的相信技术而不是管理。相信技术会用技术来解决问题,相信管理,那就只会有制度、流程和价值观来解决问题。(注意:并非隔离技术和管理,只是更为倾向于用技术解决问题)

事故发生后,InfoQ联系了AWS工作人员并表达了采访意愿。AWS虽然最终婉拒,但是称媒体的客观报道可以督促其提升技术服务质量。

这段时间,IT界尤其是大公司发生的技术故障并不少见。当IT技术服务越来越多的人的时候,宕机之事也自然也会影响并引得广泛的关注。众目睽睽之下,如GitLab和AWS这样保持坦诚踏实的态度,其实是在用另一种方式赢得对技术的尊重。没有人愿意看到问题的发生;但是问题出现后,最重要的解决反思并从中汲取教训:这难道不是技术人应有的傲骨吗?

本文转自d1net(转载)

时间: 2025-01-25 00:56:38

从AWS宕机事件说开去,热闹看完该学会什么?的相关文章

谁之过?盘点2015年上半年IT宕机事件

在互联网已经成功"挟持"我们的现在,假如未来某天早晨起床后发现,网络瘫痪,服务器宕机,我们早已习惯了的"秩序"轰然倒塌,那会是何种场景?   人始终有种不满足的心态,希望身边的一切都是完美的,但现实却总不能如愿.就像服务器,谁也不敢说能够达到100%的可靠性.然后人们就去追求99.9999%,追求99.999%,要求每年的宕机时间要少于在5.26分钟. 2015已过半,在这半年内,全球共发生了多少起宕机事件,已无法统计,但是,我们仍然希望举出我们所熟知的例子,来&q

打错一个字母瘫痪半个互联网!亚马逊 S3 宕机事件缘由

2月28号,号称「亚马逊AWS最稳定」的云存储服务S3出现"超高错误率"的宕机事件. 接着,半个互联网都跟着瘫痪了. 一个字母造成的血案 AWS在昨天给出了确切的解释:一名程序员在调试系统的时候,运行了一条原本打算删除少量服务器的脚本,结果输错了一个字母,导致大量服务器被删.为了修复这个错误,亚马逊不得不重启整个系统(在此之前已经几年都没有重启过了),最终导致了震惊全球的Amazon S3宕机4个小时事件. 我想这名程序猿当时的表情应该是这样的 曾经有人计算过,AWS每宕机一分钟,对亚

如何降低数据中心宕机事件的影响

大多数人在生活或工作领域中都不希望出现连接中断的情况,尤其是在以数字生活方式为主的今天,所以数据中心基础设施变得越来越重要.对于许多消费者来说,他们希望自己的数字产品和服务能保持正常工作,所以当发生宕机事件时,他们就会开始抱怨甚至投诉. 以最近的航空数据中心宕机事件为例,如美国达美航空.西南航空和英国航空公司,由于一个简单的电气故障或不当的维修程序,导致服务器遭到灾难性损坏,航空公司损失数亿美元,数以万计的乘客被滞留在全球各地的机场. 这些大规模的宕机事件总能成为新闻头条,而且数据中心宕机事件比

诸多网站遭遇宕机事件

过去的一周,诸多网站遭遇宕机事件,并引发了的较大损失. 特别上周五,谷歌一度宕机,不仅损失数十万美元,而且也引发了全球网络流量暴跌40%:而微软的Outlook.com也宕机三天,为此微软还发布声明向用户道歉:此外,<纽约时报>网站也在上周遭遇宕机. 今天,亚马逊也未能避免"宕机"厄运. 诸多消息称,亚马逊网站今天宕机约30分钟,从美国东部时间8月19日下午2点45分开始,有用户率先发现了亚马逊网站出现宕机,大约在20多分钟后又恢复正常.此次宕机让亚马逊每分钟损失近6.7万

从谷歌宕机事件认识互联网工作原理

今天,谷歌服务器经历了短暂的宕机事件,持续大概27分钟,对部分地区的互联网用户造成了影响.此次事件的原因深究起来需要进入互联网络那深邃的.黑暗的角落.我是CloudFlare公司的一名网络工程师,在帮助谷歌从此次宕机中恢复回来提供了一臂之力.下面就是事情发生的过程. 大约在太平洋标准时间2012年11月5号下午6:24分/时间标准时间2012年11月6号凌晨2:24分,CloudFlare的员工发现谷歌的服务中断了.我们使用谷歌的电子邮件等服务,所以,当它的服务不正常时,办公室的人会很快发现.我

微信出现宕机事件 谁为宕机买单

中介交易 http://www.aliyun.com/zixun/aggregation/6858.html">SEO诊断 淘宝客 云主机 技术大厅 当微信开始成为人们移动互联网一款重要的沟通工具后,微信的宕机事件不时的发生,据最新消息,在本月22日出现的宕机事件影响的范围最为广泛,超过四成的用户不能够登录微信,这让很多用户非常郁闷,作为一款重要的通讯软件,没有实现和QQ这样的安全稳定性是腾讯之过还是电信运营商之过呢. QQ多元化服务器保证其稳定性 为什么QQ从出生之日后,特别是在发展壮大

宕机事件致Twitter股价再创新低 今年已跌28%

1月20日消息,据外电报道,受微型博客Twitter网站和移动应用周二早上出现宕机,致使全球部分地区用户无法正常访问的影响,该公司股价在当日暴跌7%,报收于16.69美元.按照当前股价计算,Twitter市值仅为114亿美元. 宕机事件发生后,Twitter在一份声明中称:"Twitter网站和移动服务均出现宕机,导致部分用户目前无法访问."此次宕机影响了全球用户,已经有英国和印度用户表示无法访问Twitter.另据第三方监测机构DownDetector称,北欧地区受此次Twitter

微信“宕机”事件,暴露出微信发展过程中的某些问题

微信"宕机"事件,暴露出微信发展过程中的某些问题,比如腾讯应对危机反应速度太慢.尽管该事件对微信没造成太大的影响,但对微信团队而言,借助于这次的事件好好总结一下是应该的,毕竟快跑之后也应该喘口气. 最近发生的微信"宕机"事件无疑是微信自诞生以来最为严重的一次"危机事件",腾讯官方的解释是"市政道路建设导致网络光缆被挖断所致",然而业界对这种说法并不认可,腾讯也未对外界的质疑进行一一解释,当然,外界的说法只是猜测而已,具体原因估

微信“宕机”事件:应急能力遭外界质疑

摘要: 查看最新行情 作者:王易见 微信"宕机"事件,暴露出微信发展过程中的某些问题,比如腾讯应对危机反应速度太慢.尽管该事件对微信没造成太大的影响,但对微信团队而言,借助 查看最新行情 作者:王易见 微信"宕机"事件,暴露出微信发展过程中的某些问题,比如腾讯应对危机反应速度太慢.尽管该事件对微信没造成太大的影响,但对微信团队而言,借助于这次的事件好好总结一下是应该的,毕竟快跑之后也应该喘口气. 最近发生的微信"宕机"事件无疑是微信自诞生以来最为