还记得小学一年级的时候,有一则寓言故事叫《狼来了》。它讲述的是:一个放羊娃三番两次用谎言欺骗山下的村民,前两次村民都相信了放羊娃的话,急忙的跑到山上去赶走狼,然而发现被戏弄。第三次放羊娃发现狼真的来了,但是此时此刻去寻求村民的帮助时候,发现村民并不会再次相信他了,最终导致大部分羊被狼咬死,损失惨重。
虽然十几年过去了,发现自己对这则寓言故事依然记忆犹新,它告诫人们:说谎是一种不好的行为,它既不尊重别人,也会失去别人对自己的信任。如果现在再想这则寓言故事的时候,我会想如果狼来了,又没有可以求助的对象,我们应该怎么办?《孙子兵法》之《三十六计》第十八计这样讲到:擒贼擒王,摧毁敌方主力,抓住敌方的首领,就可以瓦解敌方的整体力量。如果我们能在狼群中识别出狼群首领,将所有精力全部放到它身上并且摧毁它,必定能够快速解决问题。
AlphaGo 的问世,对人工智能的发展起到了很大的推动作用,先不说 AlphaGo 有多牛X,显而易见,机器具备人的能力甚至超过人的能力已经成为可能。《狼来了》的故事对人有启示意义,对机器也一样。运维人员每天可能接收大量的告警消息,也许有很多重复、无效的邮件信息,对运维同学来说就像一直收到「狼来了」的消息,终会有遗漏的风险。另外,如果有大量相似度高、关联性强的告警消息,同时发给运维同学,我们如何做到「万军从中取上将首级」?精准定位问题?规避无用的告警消息?
所有告警仅通知一次,且必须马上 FIX 掉。
场景1:
当服务器进行维护升级的时候,我们可能会收到非常多而且都是重复的告警邮件,此时此刻,如果其他服务器真的有一条非常重要的告警消息,但是却被湮没在了诸多告警邮件中,那就会有很大几率丢失这条告警消息,从而可能导致严重的业务损失。如何避免重要的告警消息被遗漏,最好的方式就是从根本上解决问题。
1、所有的告警都是必须解决的,而且仅通知一次,如果会有遗漏,OneAlert 的告警升级功能也能够解决问题。
2、如果有服务器维护情况,OneAlert 告警平台上有开关去关闭此服务器对应的所有告警,这样就不会有任何的干扰信息对其他真正的告警产生干扰。
让一群狼变成一只狼,告警关联压缩(即将发布)
场景2:
主干网络出现问题,会导致大量网络节点出现问题,并且同一时间会发送大量的告警消息。或者如果我们监控 MySQL 的运行状况,MySQL由于某种原因出现服务停止,这样MySQL的诸多监控都会在同一时间内出现异常,并且通过某种通知方式发送大量告警消息。
OneAlert 会根据告警的相似程度进行告警压缩,比如一个服务器出现问题,其内部的所有服务也会出现问题,这时 OneAlert 会把这台服务器上的所有告警消息压缩成一条发给用户,减少受到不必要的告警风暴和噪音。
免费使用 OneAlert,免费体验,让你感知一个平台处理所有告警的所有益处。OneAlert 一直致力于给你最极致的用户体验。
OneAlert 是北京蓝海讯通科技有限公司旗下产品,中国首个 SaaS 模式的云告警平台,集成国内外主流监控/支撑系统,实现一个平台上集中处理所有IT事件,提升IT可靠性。想了解更多信息,请访问 OneAlert 官网 。
本文转自 OneAPM 官方博客