网络管理员应该如何应对系统宕机?

在去年的世界杯比赛期间,Nate Silver和他在地窖里的通灵巫师也犯了错误——他是如何做到如此精准的预测呢?确实错了。他们完全预测错了德国与巴西的比赛结果。正如Silver所描述的,这是一场完全不可能预测准确的比赛。

在体育和范围更小的政治领域,遇到这种事情也只能是吞下苦果,接受这个偶然事件——统计行业中称为黑天鹅,然后继续原本的生活。

但是作为网络管理员,我们知道在IT行业中不应该采取这种方式。

按照我的经验,当IT系统出现黑天鹅事件时,管理层通常会对这种事件讳莫如深。随后就会召开一个“经验总结会”,目的是传递精神保证以后不再发生类似的系统宕机事件。

警告:

不要花太多的时间去研究可能发生的事情

这里我并不是说,在发生故障之后,我们就可以无忧无虑地忽视所有已经学到的经验教训。相反,我们要远离它。在故障消失之后,你通常能够发现未来避免问题发生的方法。在发生意外事件之后,一个IT组织应该做的第一件事就是未来是否能够预测故障,或者说是否有时候历史数据不足以确定一种固定的概率。

如果是后者,那么我可以告诉你,你更应该将精力投入到其他地方。更好的方法是什么?不要花时间都确定一种可能性是否存在,而应该去发现和克服IT每天都会遇到的常见问题。现在很多人都忽视了这种策略。

不信?那我们来看另一个例子,这不是一个虚构的公司,我知道这个公司曾经遇到一次严重的IT故障,因此遭受了近10万美元的损失。管理层当然非常不安。公司很快建立了一个工作小组去确定故障的根源,然后推荐一些措施避免将来发生相同的故障。听起来很合理,是吗?

这个工作小组由5位来自于服务器、网络、存储、数据库和应用程序团队的成员构成。他们花了三个月时间和每个月超过100个人时的时间去调查问题根源。保守地估算,假设这家公司的每小时人力成本为50美元。那么5人、100个小时、3个月折算过来就是近12.5万美元。

现实:

并非想象的那样合理

是的,最终不仅所有根源问题都找到了——至少找到了大部分,而且也添加了代码,(可能)预测下次相同事件的爆发。听起来似乎并不差。但是要记住一点:这家公司花费了比原先故障的损失还多2.5万的资金去创建一个系统宕机解决方案,而这个方案还不一定能准确地预报类似事件的发生。

似乎它并不是很合理。

你可能会想:“但是,你觉得我们应该关注于什么呢?毕竟,我们的职责就是和公司其他同事一起守住底线(不让系统宕机)。”

我明白这一点,我要强调的重点并不是这个。我们来对比一下前面的黑天鹅例子,一起来看看一个更常见的问题:网络接口卡(NIC)故障。

在这个例子中,另一个并非虚构的公司发现带宽使用峰会并且一直很高。当传输速率下降到最低,然后NIC招聘错误,并且最终卡死。问题是,在监控带宽使用率时,停止响应或消失的网卡上并没有发出警报(公司监控了最后连接的IP,因此远程终端中断时WAN链路并没有发出警报。)

我们假设一个NIC故障平均需要一个小时才能被发现和正确诊断原因,然后网络管理员需要两个小时才能修复问题,而他们的人力成本是53美元每小时。在线路中断时,公司每小时要损失1000美元的收入,并且还会失去市场机会等等。这意味着这样的宕机会让公司损失3106美元。

经验:

设置一个包含警报和监控的框架

现在可以这样考虑,按照我的经验,正确的监控和警报可以将发现和诊断这种NIC故障问题的时间缩短为15分钟。仅此而已。不需要任何其他的措施,至少在这个案例中不需要。但是,这种简单的措施可以将宕机损失减少750美元。

我知道这些数字听起来并不太震撼。但是,要知道中等规模的公司可能每年就可能轻松遇到100次NIC故障。如果没有监控这些问题,加起来就是30万美元的损失,而如果部署警报则每天可以节省7.5万美元。

这还不算预测NIC故障和提前更换网卡所避免的损失。如果我们估计使用预测监控能够避免掉50%的故障,那么可能节省的费用可能在19万美元以上。

同样,我并不是说不应该去做好应付黑天鹅事件的准备工作,但是如果预算比较紧张,有时候一些针对常见问题的简单警报所能避免的损失要高于去预测和防止可能不出现的“大问题”。

毕竟,NIC故障并不是大问题。甚至我认为Nate Silver也认同这一点。

作者:何妍 

来源:51CTO

时间: 2024-08-01 11:37:52

网络管理员应该如何应对系统宕机?的相关文章

如果你只关注系统宕机的最坏情况 那就大错特错了

在去年的世界杯比赛期间,Nate Silver和他在地窖里的通灵巫师也犯了错误--他是如何做到如此精准的预测呢?确实错了.他们完全预测错了德国与巴西的比赛结果.正如Silver所描述的,这是一场完全不可能预测准确的比赛. 在体育和范围更小的政治领域,遇到这种事情也只能是吞下苦果,接受这个偶然事件--统计行业中称为黑天鹅,然后继续原本的生活. 但是作为网络管理员,我们知道在IT行业中不应该采取这种方式. 按照我的经验,当IT系统出现黑天鹅事件时,管理层通常会对这种事件讳莫如深.随后就会召开一个"经

系统宕机:设备和应用不再是大问题,人为错误是关键

如果问系统管理员什么是最令其担心的问题,十有八九会说是系统宕机,这一点对业务中断忍受度极低的金融行业来说尤为如此.随着数字化转型的进一步推进,越来越多的企业业务依赖IT技术,IT系统宕机极易导致企业的瘫痪,造成的影响和损失不可估计. 对于IT团队来说,即便尽全力也几乎不能保证系统100%正常运行,只能通过规划冗余以尽可能地保持更多的正常运行时间. 实际上与几年前相比,现在的软件更具弹性,无论是商业软件还是开源软件出问题的几率都比较小,出了问题管理员也可以通过使用虚拟机.配置和编排以快速恢复正常运

weblogic+aix系统宕机问题分析

问题描述 系统在运行半年多以后,于近期开始间隔性宕机:报错日志:UnhandledexceptionType=SegmentationerrorvmState=0x00000000J9Generic_Signal_Number=00000004Signal_Number=0000000bError_Value=00000000Signal_Code=00000032Handler1=09001000A043F128Handler2=09001000A0436D38R0=00000001208B1

Linux服务器宕机案例一则

案例环境 操作系统 :Oracle Linux Server release 5.7 64bit 虚拟机 硬件配置 : 物理机型号为DELL R720 资源配置 :RAM 8G Intel(R) Xeon(R) CPU E5-2690 8核 案例描述 早晨发现桂林那边一台Linux服务器(虚拟 机)网络无法ping通,于是联系那边的系统管理员通过Lync共享桌面给我,通过他的电脑VMware vSphere Client登录后,发现在控制台亦无响应.无法登录.无法操作,输入操作无响应.也就是说系

Twitter创业史:与iPhone相得益彰可爱宕机鲸

Twitter于北京时间11月7日23:50登陆纽交所,上市首日表现惊艳.开盘股价即达45.1美元,较26美元的发行价大涨73%.截至收盘,涨幅达到72.69%,报收于44.90美元,目前市值达245亿美元.作为Twitter的第一大个人股东,联合创始人威廉姆斯身价超过32亿美元;联合创始人多西身价超10.5亿美元;早期投资人.董事彼得·芬顿身价超14.2亿美元;CEO科斯特洛身价约4.3亿美元.在Twitter成功IPO之际,让我们回顾这家公司的一些早期故事.关键时刻:互联网处于低潮之时,推特

IT宕机,和力记易容灾备份能做什么

  IT宕机所造成的影响 1.直接经济损失 据美国权威机构波耐蒙研究所2016年1月份的调查显示,数据中心IT宕机时间的平均成本为每分钟9000美元.某电子商务巨头2013年因服务器停摆40分钟造成了500万美元的直接损失.在这些公开的案例中,我们可以非常直观的从数字上了解到IT宕机所造成的巨额经济损失.然而,IT宕机所带来的不良后果还远不止这些. 2.丢失重要数据 业务停顿是IT宕机最直接的影响,除此之外,如果备份机没有起到应有的作用,还极易丢失数据.据悉,安徽省某市级人民医院在2015年因为

避免在云迁移过程中宕机

在公共云迁移期间,IT团队需要采取谨慎的步骤,以避免听到"系统宕机"这种可怕的提示. 随着组织迁移到基于云计算的基础设施,IT团队需要在迁移过程中保持可用性.但是,考虑到所有复杂性,在云计算迁移过程中,防止宕机或最小化停机时间并不容易.云计算团队需要考虑数据不一致,监控不同的软件版本,并检查其网络连接是否成功. 如果企业的应用程序崩溃,业务往往会停止.虽然精确的指标因企业和应用的情况而异,但调研机构Gartner公司在2014年发现,网络停机时间平均每分钟的损失为5,600美元.停机时

微软Outlook.com宕机致部分用户无法使用

电子邮件服务Outlook.com宕机,具体多少用户受到影响目前不详.新浪科技讯 北京时间2月26日凌晨消息,微软周一证实,该公司基于网络的电子邮件服务Outlook.com宕机,导致部分用户无法使用.微软在Twitter上发布消息称,该公司已经"得知这个问题",但并未透露宕机原因的具体细节.微软还发布另一条消息称,目前还不清楚Outlook.com需要多 长时间才能恢复服务,但指出宕机并非由于遭到黑客攻击.在微软通过@MicrosoftHelps发布的许多Twitter消息中,该公司

一次调查centos 6.2上xfs文件系统宕机后文件数据丢失的经历

阿里云每天都会接到大量的客户工单,工单问题千奇百怪,不少问题调查起来颇费周折.下面的这个问题很有意思,一开始我们以为是ECS的bug,导致用户数据丢失,吓出一身冷汗,后来发现问题出在操作系统.一次次与底层系统的交手,慢慢的让阿里云的产品变得更加透明.   今天接到用户工单,反馈说他的云服务器发生了宕机迁移,奇怪的是迁移后部分文件长度变成0了,但是之前升级应用的时候确认过这些文件肯定是正常的.粗看现象确实比较奇怪,根据用户提供的操作,可以抽象为向xfs文件系统上写了一些文件数据,然后系统宕机.系统