数字化灾难!2016年九大服务停机事故总结

 【51CTO.com快译】2016年发生的一系列停机事故已经导致众多知名品牌遭受严重损失,其商业信誉与消费者信心亦因此受到重大打击。发生停机事故的主要原因之一在于计划外的系统配置变更,这通常是因为即时bug或者潜在系统安全漏洞修复意外引发了更为严重的问题。

 

为了避免发生计划外停机,我们将在这里回顾过去一年中出现的那些最为严重的服务停机事故,希望能够以此为鉴指导新一年中的业务连续性保障工作。

美国西南航空

去年10月,836条西南航空航线遭遇延误,而根源在于该公司航线技术系统中的问题。根据该公司介绍,技术人员不得不全力修复主要系统并利用备份规程以帮助客户及其托运行李正确到达目的地。

达美航空

达美航空公司证实,亚特兰大当地的一次电力中断影响到其凌晨时开始进行的系统更新,并最终导致计算机系统瘫痪以及大量航班延误。该公司同时警告称,当周一其被迫因此取消大量航班,且机场屏幕及其它飞行状态系统将无法正常显示航班相关信息。

根据统计,此次时长达5小时的停机共造成2000次航班取消,总体损失估计达1.5亿美元。

Salesforce

这家云应用厂商在其官方网站上指出,其NA14实例上的一套数据库出现文件完整性问题,并导致超过12个小时的服务停机事故。

根据统计,由此次停机造成的经济损失约为2000万美元。

苹果

去年6月,苹果公司放下的iCloud、App Store、iTunes以及Apple TV等一系列互联网服务发生长达9小时的停机事故。另外,去年12月初用户们亦发现其暂时无法登录自己的iCloud账户。

Slack

去年6月,高达300万用户在2小时内由于Web服务器过载而无法正常访问Slack。

该公司目前正在就如何避免再次发生类似问题而进行讨论。

身份是解决问题的关键

为了避免发生停机事故,IT运营团队应当对现有服务进行分层,同时将系统身份识别作为业务中的关键性因素。其中顶级应用应是那些与业务成败直接关联的重要应用,例如销售点、票务或者计费等功能相关的应用。

为顶级系统制定故障切换计划

高可用性水平不可能自然实现,我们必须为其做好规划及实施。具体而言,高可用性立足于系统架构中的各个方面。顶级系统需要切实配合故障切换计划,同时利用额外负载容量处理意外出现的负载峰值。

投资建立高水平监控堆栈

如果无法把握服务的当前运行状态,那么保证其运行状态也将成为痴人说梦。事实上,准确了解IT系统运行状态的惟一途径就是在堆栈中的各个层面上引入一流监控工具(例如系统监控、应用监控、Web与用户监控、日志记录以及错误追踪等方案)。目前IT行业正积极利用这种分层式功能独立方案取代原有的整体式服务监控机制,从而适应持续提升的IT系统复杂性与动态水平。

在警报机制内区分有效信号与干扰信号

工具数量的增加同时意味着我们需要面对更多干扰信号。为了有效识别、分类并解决潜在问题,IT团队必须找到可行方式以正确进行有效信号与干扰信号分离。通过采用警报关联解决方案,IT团队将能够了解各监控工具的警报信息间存在哪些联系,从而快速过滤掉非关键性问题,最终集中精力处理最重要的风险因素。

 

 

 个值得思考的问题。

作者:核子可乐译

来源:51CTO

时间: 2024-09-20 00:37:23

数字化灾难!2016年九大服务停机事故总结的相关文章

2016年九大前端必备动画库

  进入2016年,随着各种类型网络技术的快速发展,动画 库能为我们的网页设计 增添很多视觉趣味.作为前/后端的开发人员来说,熟悉及掌握好各种动画 库(甚至抽取搭建成自己优化的动画库)代码,便能轻松省时省力地完成各种工作需求.即使客户或用户的UI设计需求越来越多,再加上设计大神们提交的动画动效DEMO,本文推荐的这些动画库基本都能在浏览器里面实现出来咯.希望对各位开发童鞋来说能有所帮助. 1. Animate.css 创建者:Daniel Eden 发布日期:2013年 最新版本:3.4.0 关

价值1207亿的技术分享,你不能错过“2016双11技术创新”的九大理由!

双11的剁手党们.阿里的粉们以及广大的技术精英爱好者们,你们必须知道阿里又要"发车"了: 本次技术论坛是一场全面解读双11背后技术创新的饕餮盛宴,特别邀请了亲历2016年双11的8位阿里技术大V:从承载亿级用户大流量的网络自动化技术,到资源充分利用的超大规模Docker化:从支撑最大规模在线交易的实时和离线计算能力,到人工智能在搜索和推荐场景下的创新应用:从颠覆购物体验的VR互动,到背后千人千面的商铺个性化:从应对前端极限挑战的"秒开项目",到绚烂媒体大屏背后全面的

5G启动与跨业融合 带动通讯服务九大发展趋势

资策会产业情报研究所(MIC)在30日举办之"2018 科技产业趋势前瞻"记者会当中表示,4G.5G.Wi-Fi.蓝牙技术标准演进为移动通讯产业带来新变革,也透过跨产业的融合,持续带动新兴智能应用与产品发展,例如穿/腕戴式设备.无人商店.AR/VR.机器人等,为产业注入新动能.展望2018年,移动通讯产业有九大发展趋势. 趋势一:2019年5G启动商用,关联产业蓄势待发 欧盟.亚洲与中亚主要国家已陆续进行5G频谱资源规划,6GHz以下频谱多瞄准3.4GHz-3.8GHz频段进行分配,6

你不能错过“2016双11技术创新”的九大理由

双11的剁手党们.阿里的粉们以及广大的技术精英爱好者们,你们必须知道阿里又要"发车"了:  本次技术论坛是一场全面解读双11背后技术创新的饕餮盛宴,特别邀请了亲历2016年双11的8位阿里技术大V:从承载亿级用户大流量的网络自动化技术,到资源充分利用的超大规模Docker化:从支撑最大规模在线交易的实时和离线计算能力,到人工智能在搜索和推荐场景下的创新应用:从颠覆购物体验的VR互动,到背后千人千面的商铺个性化:从应对前端极限挑战的"秒开项目",到绚烂媒体大屏背后全面

2017年呼叫中心的九大趋势

2016年,我们见证了呼叫中心和客户体验方面发生的许多变化.大家都在积极考虑云通信和虚拟坐席,而社交媒体则变得比以往更加重要.2017年是形成战略思维的一年:更好的数据分析,更意有所图的社交媒体对话以及引入人工智能的创新方式.为了帮助您把握2017年的目标,我们列出了迄今为止对呼叫中心影响最深远的九大趋势. 1.数字化转型 企业一直在努力尝试从价格或产品质量方面脱颖而出.然而,我们越来越频繁地看到,当今的客户提出了更多的追求:一次令人满足的体验,这样的体验会带来与企业之间持久的关系.客户互动不再

2016年十大DevOps开发工具

DevOps不仅仅是开发与运营方法的融合与变革,更是一场企业文化革命.如今越来越多的企业从DevOps中获益,例如更加稳定的运营环境,更快的产品交付和问题解决周期.持续交付.持续集成,DevOps能在整个生命周期内提升企业产品,更快地满足客户需求,是企业未来打造核心竞争力的关键. 虽然DevOps目前还处于发展的早期阶段,但是对企业文化和业务影响已经开始显现,对于刚刚开展DevOps的企业来说,选择正确的开发工具至关重要,以下IT经理网整理了Stackshare推荐的2016年十大DevOps开

【安全课堂】九大角度分析数据库安全漏洞

本文讲的是[安全课堂]九大角度分析数据库安全漏洞,数据库漏洞的存在有多种方式,由于每一个现实的场景由多维组合而成,因此数据库漏洞对应也可以从不同角度归类划分.这种分类将更有利于我们掌握对每种漏洞的防护技术. 安华金和数据库安全实验室主要从以下九个角度对数据库漏洞进行分类介绍:‍‍‍‍ ‍‍1.从漏洞作用范围划分 ‍‍‍‍远程漏洞:攻击者可以利用并直接通过网络发起对数据库攻击的漏洞.这类漏洞危害极大,攻击者能随心所欲的通过此漏洞危害网络上可辨识的数据库.此类漏洞为黑客利用漏洞的主力. ‍‍‍‍‍‍

云计算面临九大安全威胁

云计算安全联盟(CSA)近期发布的报告总结了9种威胁云计算安全的"罪魁祸首".在这其中,数据泄露.数据丢失和数据劫持三类威胁排名靠前.498)this.width=498;' onmousewheel = 'javascript:return big(this)' border="0" alt="云计算面临九大安全威胁" src="http://s3.51cto.com/wyfs01/M00/0C/3B/wKioOVGmxI7RHaaS

全面解读电商减贫 | 喜迎十九大

在十九大开幕式的报告中,习总书记多次强调脱贫的艰巨和重要."坚决打赢脱贫攻坚战".过去五年,电子商务助力中国减贫,成效初步显现.让我们通过<电商减贫与普惠发展研究报告>系统回归和展望. 报告的主要研究发现: 我国贫困县电子商务快速.持续发展 从2013年到2016年,我国贫困县电子商务持续.快速增长.在阿里零售平台上,国家级贫困县的网络销售额在2014.2015年先后突破100亿元.200亿元大关,2016年接近300亿元,是2013年的3.4倍. 在部分贫困县,电子商务初