「技术大牛」是如何缩短事件平均解决时间的?

前不久,我们讨论了运维不容错过的 4个关键指标,其中平均解决时间(MTTR)被认为是衡量业务的最佳标准,随后也分析了「告警等级」对MTTR的重要性。

正确看待 MTTR

MTTR 为从故障发生到故障修复所经历的时间。总故障时间是关于告警事件数量与各告警事件时长的函数。经过仔细地探讨这两项因素及其优先级,结合具体情况,总结以下策略用来缩短MTTR:

1)加快工作速度 = 然并卵

如果想通过加快工作速度降低 MTTR,理论上是完美的,但是骨感的现实根本不按我们的剧本走!为了对 MTTR 进行持续的、可衡量的改进,应该对故障事件进行深入的调查,分析事件的复杂程度及重要程度,然后从人与系统的协作上,实现对流程进行优化。

2)检验告警响应时间

一旦事件发生,「MTTR」时钟便开始计时。通过调整通知流程,或许就能速战速决。下图为常见故障处理过程:

还不够直观?数据来说话。 OneAlert 一个月的告警数据显示:平均响应时间为 2.8 分钟;平均解决时间为 27 分钟。(不要问我为什么你们的响应时间要好几个小时!)

如果你的响应时间较长,建议检查一下团队值班响应机制,告警是否可有效传达给了正确的人?如果一线排版人员无响应,告警能否自动升级?升级时间阈值是多少?通过设定接近平均响应时间的适当期望值和目标,能确保所有成员尽快对告警作出响应。

3)建立故障解决流程

告警响应时间过长,说明告警响应机制存在问题,故需建立有效的故障解决流程,即需确保以下内容:

  • 建立有效沟通协议——明确每个人的任务分工,确立有效沟通方式。以 OneAlert 为例,团队的沟通方式主要有 QQ 群聊、WeChat 聊天室、钉钉等。
  • 确定团队领导人——此人将在解决故障期间带领团队工作。需要做好记录并合理安排工作。
  • 做好记录——应当详细记录故障期间发生的一切。这些记录在你事后回顾之时将会非常有用。OneAlert 团队领导人还会定期总结告警事件。
  • 熟能生巧——确保团队中每一个人都不是告警响应的新手。

4)找到并解决问题

事件解决时间大部分花在确定告警问题的过程中。所以,如何更快的明确问题的关键,是目前各大监控工具抢占市场的核心武器。但是未来可以肯定的是,找到问题还不够,自动化处理才是发展的出路。这部分内容将在后期的文章中深入探讨。

OneAlert 是应用性能管理领军企业 OneAPM 公司旗下产品,也是国内首个 SaaS 模式的云告警平台,集成国内外主流监控/支撑系统,实现一个平台上集中处理所有 IT 事件,提升 IT 可靠性。想了解更多信息,请访问 OneAlert 官网 。

本文转自 OneAPM 官方博客

时间: 2024-12-01 06:02:24

「技术大牛」是如何缩短事件平均解决时间的?的相关文章

资深算法工程师眼中的深度学习:Ian Goodfellow 和Yoshua Bengio的「Deep Learning」读书分享

雷锋网 AI 科技评论按:英雄式的科技公司 Tesla 和 SpaceX 的 CEO 埃隆·马斯克对人工智能技术和研究保持批评态度已经不是一天两天了.今年5月份钢铁侠说"90%的学术论文都毫无价值"的时候就引起了学术界的抗议,上个月又说人工智能技术是"人类文明史上面临的最大威胁",又引起了 Facebook CEO 马克·扎克伯格在内众多人工智能支持者的声讨. 当然了,马斯克并不是反科技,他自己也是人工智能研究组织 OpenAI 的发起人之一,他只是不像别人那么乐观

微软的神经网络:深度学习能走得「更深」

计算机视觉现已走进了我们的日常生活.Facebook可以识别你上传到的照片中的人脸.Google Photos应用可以识别狗.生日派对.墓地等多种事物和场景,这种能力能帮你检索相册中的照片.Twitter则可以在没有人类监管者的情况下识别鉴定色情图片. 以上的「视觉」能力都源于人工智能一个高效率的被称为「深度学习」的分支.尽管这项技术在近几年得到了人们的大肆吹捧,但微软研究院的一项新实验却显示这一切才刚刚开始:深度学习可以走得「更深」. 计算机视觉的革命已经进行了相当长的时间.2012年时我们终

BAT资深算法工程师「Deep Learning」读书系列分享(一) | 分享总结

雷锋网 AI 科技评论按:「Deep Learning」这本书是机器学习领域的重磅书籍,三位作者分别是机器学习界名人.GAN的提出者.谷歌大脑研究科学家 Ian Goodfellow,神经网络领域创始三位创始人之一的蒙特利尔大学教授 Yoshua Bengio(也是 Ian Goodfellow的老师).同在蒙特利尔大学的神经网络与数据挖掘教授 Aaron Courville.只看作者阵容就知道这本书肯定能够从深度学习的基础知识和原理一直讲到最新的方法,而且在技术的应用方面也有许多具体介绍.这本

聊聊OS X自带经典字体「俪宋」的设计历史

  现在字体设计在电脑上就可以轻松完成,但在第一台Mac刚发售时,中文字体设计很不容易,各方面的限制特别多,不过知名字体设计师柯炽坚仅靠自己一人就做出了「俪宋」体,后来这也成了苹果电脑自带的中文字体之一.这一过程中发生了很多有趣有料的故事,一起来看看. △ 以向量描绘,俪宋的「一」 俪宋始于 1989 年,是世界最早的 PostScript 中文向量字体之一.现在 Mac 中的「俪宋 Pro」, 以及华康的俪宋家族,都基于 1989 年的初代俪宋[A].对今天的编辑来说,俪宋只是一种内文细明体罢

Python的数据序列化「Json & Pickle」

在介绍Python的数据序列化模块「Json & Pickle」之前,我们先来看看为什么需要数据序列化,什么是数据序列化. 为什么需要数据序列化,我认为有如下两种原因: 一个原因是将对象(一切皆对象)的状态保持在存储媒介(硬盘.网盘......)中,以便可以在以后重新创建精确的副本,相当于镜像的概念,比如我们平时利用VMware虚拟机中的挂起功能,这个挂起功能就是利用数据的序列化,把虚拟机当前的状态序列化保存在本地磁盘的文件中,然后恢复的时候只需反序列化,把状态恢复即可. 另一个原因是通过值将对

ACL的「深度学习热」:论文纷纷「入坑」,企业蜂拥「入局」|ACL 2017

演讲结束,掌声响起. 赵衡急急忙忙收拾东西离开座位,希望在人潮散场前赶紧离开 ACL 2017 的主会场,好找个地方看看接下来的议程--但也已经晚了.尽管大门试图严密地隔开场内场外,但赵衡推开门时,会场外熙熙攘攘.甚至显得有些吵闹的对话声涌进大厅,引来不少观众的回头侧目. 赵衡背着包,磕磕碰碰地跟着人海移动到下一个会场时,他心里只暗暗后悔没有再早一点离场. 「我猜主办方也没想到有这么多人,今年的场子定得太小了,」赵衡半是无奈半是欣慰地感慨道.作为国内 Top 5 高校的博士生,他感慨自己遇上了

如何将「插件化」接入到项目之中?

本期移动开发精英社群讨论的主题是「插件化」,上网查了一下,发现一篇 CSDN 博主写的文章<Android 使用动态加载框架DL进行插件化开发>.此处引用原作者的话: 随着应用的不断迭代,应用的体积不断增大,项目越来越臃肿,冗余增加.项目新功能的添加,无法确定与用户匹配性,发生严重异常往往牵一发而动全身,只能紧急发布补丁版本,强制用户进行更新.结果频繁的更新,反而容易降低用户使用黏性,或者是公司业务的不断发展,同系的应用越来越多,传统方式需要通过用户量最大的主项目进行引导下载并安装.怎么办?这

专访云知声CEO黄伟:如何打造人工智能「云端芯」生态闭环

一.云知声的技术研究 2012年底,我们把深度学习应用到了语音识别.我们今天的技术架构都在使用增强学习. 机器之心:这几年深度学习带来了语音识别的巨大进步,云知声是何时开始这方面研究的? 黄伟:2012 年 12 月底,我们把深度学习应用到了语音识别里,而且把它开放出来提供给第三方.这源于 2011 年,我去佛罗伦萨参加国际语音会议 Interspeech,当时和微软研究员俞栋就深度学习的交流给了我很大信心,后来,云知声在 2012 年 6 月份成立,9 月份我们发布语音识别平台,之后紧跟着 1

编写「可读」代码的实践

编写可读的代码,对于以代码谋生的程序员而言,是一件极为重要的事.从某种角度来说,代码最重要的功能是能够被阅读,其次才是能够被正确执行.一段无法正确执行的代码,也许会使项目延期几天,但它造成的危害只是暂时和轻微的,毕竟这种代码无法通过测试并影响最终的产品:但是,一段能够正确执行,但缺乏条理.难以阅读的代码,它造成的危害却是深远和广泛的:这种代码会提高产品后续迭代和维护的成本,影响产品的稳定,破坏团队的团结(雾),除非我们花费数倍于编写这段代码的时间和精力,来消除它对项目造成的负面影响. 在最近的工