五种令人沮丧的告警垃圾及处理办法!

OneAlert,我们经常与运维团队聊天。因为产品开发过程中,这样的对话有助于了解客户的真正痛点。「告警垃圾」——监控系统中时常涌现的告警洪流,是运维团队经常提到的一大痛处。

至于其原因,虽然多种多样,但造成的后果都是一样的:信息超载。如果每天收到几十条甚至上百条告警提醒,你很难从中找出急需采取行动的紧迫告警。在那些紧迫的告警中,找出需要立即处理的告警更则难上加难。这种现象有个恰如其分的名字:告警疲劳

1.每台主机的告警

你看到的情况:服务器监控系统在同一时间发出5条紧急告警。

实际情况:你的缓存层由20台服务器组成。其中一台出现了新的配置错误,导致一系列的内存不足告警,每台主机都出现一条告警。

在理想世界中:你只会收到一条告警,告诉你25%的主机集群出现问题。而且,如果你当下正忙得不可开交,可以延后该告警的处理。理想情况下,告警阀值只在集群层或角色层设置。

2.重要!=紧急

你看到的情况:主机 X、Y、Z 出现磁盘空间不足警告。

实际情况:一切尽在意料之中。在正常运转了三个月之后,主机 X、Y、Z 存储的数据逐渐增多。或许你应该升级磁盘,或许你应该清理一些旧数据,但是,必须现在就处理么?在这夜阑人静的时候?

在理想世界中:除非磁盘使用量突然增多,否则就不是紧急事件。无需触发实时告警,只要每周一发送磁盘使用量报告,在其中列出磁盘空间不足的主机即可。如果能依照当前的使用速度,预测剩余的磁盘空间将在何时耗尽,就更好了。

3.非自适应性的阀值

你看到的情况:每个周一,午餐过后,都会出现大量的告警。

实际情况:你已经努力工作以优化配置 Nagios 监控的告警阀值。现在,它们不会每天无谓地发送告警。但是,一到流量特别大的某个工作日,还是会触发意料之中的告警。你怎么办?确认该告警,然后无视它。

在理想世界中:你的流量是有起伏规律的,监控系统能够掌握这种规律。如果每到下午1点负载就会增加,告警阀值也应该相应上升。告警只应在出现异常负载时触发,否则就是没有意义的告警。

4.同样的问题,不同的系统

你看到的情况:Nagios、Pingdom、NewRelic、KeyNote 还有 Splunk 在同一时间发出重要告警,与此同时,ZenDesk 上的客户投诉也不断增加。

实际情况:两个 Mongo 节点出现数据损坏,导致大量的磁盘 IO 以及事务错误。这类问题会波及服务器层,应用层以及用户层。因此,所有监控工具都会发出告警。

在理想世界中:你只会从最先捕获该问题的系统处收到一次告警,此后,任何因此而达到告警阀值的监控系统都会将其告警信息传给同一个「事件线程」。

5.瞬态告警

你看到的情况:每个人都会遇到这样的情况。同样的问题每隔几天就出现一次,持续时间不过几分钟,来得快去得也快。说实话,你已经忙得不可开交了,近期内也不大会去排除这种问题。

实际情况:可能是某个 cron 作业占用了过量的网络资源,又或是应用中某个 race-condition 导致了数据库死锁,也可能是某个不常用的功能导致了后端进程崩溃。

在理想世界中:你可以标记该问题,之后再去解决。这样,你只会在下个月再遇到该问题,并得到一份报告,显示了该问题通常的发生时间(当然还有相邻时间内容易发生的问题和与之相关的问题)。

你遇到了哪些告警垃圾?想不想与我们分享?请在文章下面的评论区留下你的反馈。

OneAlert 是应用性能管理领军企业 OneAPM公司旗下产品,也是国内首个 SaaS 模式的云告警平台,集成国内外主流监控/支撑系统,实现一个平台上集中处理所有 IT 事件,提升 IT 可靠性。想了解更多信息,请访问 OneAlert 官网 。
本文转自 OneAPM 官方博客

时间: 2024-11-01 22:56:48

五种令人沮丧的告警垃圾及处理办法!的相关文章

一轮的传统书店倒闭潮正以一种令人沮丧的速度在全球蔓延

摘要: 一轮的传统书店倒闭潮正以一种令人沮丧的速度在全球蔓延.7月22日起美国连锁书店Borders开始关闭旗下的399家店面.Borders曾是美国第二大传统图书零售商,有着40年的历史,一度被认为 一轮的传统书店倒闭潮正以一种令人沮丧的速度在全球蔓延.7月22日起美国连锁书店Borders开始关闭旗下的399家店面.Borders曾是美国第二大传统图书零售商,有着40年的历史,一度被认为是全美最佳书店,巅峰时期销售额更是达到40亿美元. 国内的书店境遇也不容乐观.日前上海季风书店即将面临第三

使用XML的五种场合

xml 1.数据交换 用XML在应用程序和公司之间作数据交换已不是什么秘密了,毫无疑问应被列为第一位.那么为什么XML在这个领域里的地位这么重要呢?原因就是XML使用元素和属性来描述数据.在数据传送过程中,XML始终保留了诸如父/子关系这样的数据结构.几个应用程序可以共享和解析同一个XML文件,不必使用传统的字符串解析或拆解过程. 相反,普通文件不对每个数据段做描述(除了在头文件中),也不保留数据关系结构.使用XML做数据交换可以使应用程序更具有弹性,因为可以用位置(与普通文件一样)或用元素名(

[收藏]五种提高 SQL 性能的方法

性能 五种提高 SQL 性能的方法发布日期: 4/1/2004 | 更新日期: 4/1/2004Johnny Papa Data Points Archive 有时, 为了让应用程序运行得更快,所做的全部工作就是在这里或那里做一些很小调整.啊,但关键在于确定如何进行调整!迟早您会遇到这种情况:应用程序中的 SQL 查询不能按照您想要的方式进行响应.它要么不返回数据,要么耗费的时间长得出奇.如果它降低了报告或您的企业应用程序的速度,用户必须等待的时间过长,他们就会很不满意.就像您的父母不想听您解释

五种提高SQL性能的方法

性能 五种提高 SQL 性能的方法Johnny Papa 有时, 为了让应用程序运行得更快,所做的全部工作就是在这里或那里做一些很小调整.啊,但关键在于确定如何进行调整!迟早您会遇到这种情况:应用程序中的 SQL 查询不能按照您想要的方式进行响应.它要么不返回数据,要么耗费的时间长得出奇.如果它降低了报告或您的企业应用程序的速度,用户必须等待的时间过长,他们就会很不满意.就像您的父母不想听您解释为什么在深更半夜才回来一样,用户也不会听你解释为什么查询耗费这么长时间.("对不起,妈妈,我使用了太多

在容器中使用Java RAM:五种不丢失内存的方法

本文讲的是在容器中使用Java RAM:五种不丢失内存的方法[编者的话]在这篇文章中,我们想分享一些看起来不那么明显的关于在容器内部中Java内存管理和弹性扩展的细节. 您将看到在即将发布的JDK版本中需要注意的问题和重要更新的列表,以及核心难点的现有解决方法. 我们收集了可以提高Java应用程序的资源使用效率的五个最有趣和最有用的问题点. [3 天烧脑式 Docker 训练营 | 上海站]随着Docker技术被越来越多的人所认可,其应用的范围也越来越广泛.本次培训我们理论结合实践,从Docke

浅谈新论坛快速聚集人气的五种方法

中介交易 http://www.aliyun.com/zixun/aggregation/6858.html">SEO诊断 淘宝客 云主机 技术大厅 其实要想运营一个论坛是需要很大的勇气的,因为论坛的运营要比网站的运营还要难,不仅要涉及内容的建设,还需要涉及到会员的管理,涉及到提升会员的忠诚度等等,而网站的运营只要搞定内容的建设就好了,其他要做的,论坛都要去做,所以说对于个人站长如果要做论坛是有很大的勇气的,首先对于新论坛聚集人气这一方面就会让很多站长伤透了脑筋,下面我们就来介绍几种提升新

海外译文:经济不景气最有可能受益的五种网站

中介交易 http://www.aliyun.com/zixun/aggregation/6858.html">SEO诊断淘宝客 站长团购 云主机 技术大厅 导语:在全球经济不景气的大背景下,互联网行业也并不是全部受灾.美国科技博客马克·瑞森·霍普金斯(Mark 'Rizzn' Hopkins)近日撰文提到了五家Web 2.0企业,他们有可能在经济萧条时期获得发展的机会.全文如下: 用户需求是创新的源泉.在如今的大环境下,如果产品可以为用户节省成本,那将成为热门.经过大致的整理,约有以下五

.NET环境下五种不同的邮件发送解决方案

本文介绍了.NET环境下五种不同的邮件发送解决方案,以及这些方案的优缺点.选择何种方案,视程序的用途和需求而定,本文例出的几种方案,供大家参考. 1.使用outLook提供的发送 如:我见过的用友软件U8生产制造(演示版),其中的邮件功能就是通过调用outLook的ActiveX组件 优点:开发简单 缺点:依赖outlook组件,SMTP 邮件服务 邮件发送的代码如下: 以下是引用片段: Private Sub Send() Dim outObjAs New Outlook.Applicatio

这五种操作会让你的网站被降权

摘要: 容易导致网站被降权的五种操作: 第一. 很散漫的进行网站优化 这个通常情况下新手的触犯比较多,新手以为只要自己网站上线后再有时间来慢慢修改.可他们却不知道网站在被百度 容易导致网站被降权的五种操作: 第一.   很散漫的进行网站优化 这个通常情况下新手的触犯比较多,新手以为只要自己网站上线后再有时间来慢慢修改.可他们却不知道网站在被百度收录之前就一定要把重要的信息给改完善了才行.这个好比女人化妆一样,当纯天然的看起来没那么的漂亮,一旦化起妆来就成了美女.那么这化妆的前前后后的性质就改变了