每个工作日,一家大型企业都可能存在一两件优先级为 1 级的事件,五六件优先级为 2 级的事件和百来件优先级为 3 级的事件。试想一下,如果公司所有支持人员都要收到每个事件的通知……不想了,我好方!还能不能愉快的工作了?然而,这样的事情每天都在各个企业里上演。然而支持团队并无权处理所有事件!他们却需要反复地处理各个事件,如果全球各地的支持团队都如此,想想这总共得浪费多少时间和多少叠 money 呀!
2012 年全球第一家 ITOA 企业 Splunk 的上市,人们才有了更为有效的方法解决上述问题。
首先我们先科普下 ITOA 究竟是为何物,Wikipedia 如是说:
Definition: IT Operations Analytics (ITOA) (also known as Advanced Operational Analytics, or IT Data Analytics) technologies are primarily used to discover complex patterns in high volumes of often "noisy" IT system availability and performance data. Forrester Research defines IT analytics as "The use of mathematical algorithms and other innovations to extract meaningful information from the sea of raw data collected by management and monitoring technologies."
莫装逼,说人话:ITOA 即 IT 运营分析,ITOA 就是通过大数据分析的技术手段来解决随着虚拟化和大数据导致的在 IT 配置、变更和运行过程中产生的海量数据分析问题,并将这些分析结果转化为清晰的、可付诸实施的解决方法,从而帮助 IT 运维和管理人员大大地缩短故障修复时间,减少事故和宕机次数,平滑地实现无故障的应用发布和系统升级。
大型企业的支持团队如果一直使用现有方法,就无法继续应对每天出现的大量事件。传统的 ITOA 工具全面地解读了一家企业内发生的所有事件,对某些管理人员和主要决策人员较为实用,但每个支持团队都有其特殊职责,实际上只需关注特定类型的事件就能完成工作。所有额外信息都会令人不知所措,甚至会让人分心。
一个解决办法是让每个人分别设置事件显示过滤器。遗憾的是,这种方法工作量较大,根本不适合经常发生变化的大型企业。必须得有一种更好的解决办法……
OneAlert 自动化团队事件工作流
为了响应领先企业的需求,OneAlert 现在可将事件根据分派策略的不同,自动指派给适当团队。“通知所有人” 的时代将一去不复返。借助 OneAlert,管理人员可以恰当地定义其团队、团队成员和重点领域,使事件自动化指派给最需要知道的人,让其他人免受打扰。
下面我们来看一个例子,了解它是怎样提高运营效率的:
某个国际企业可能拥有 10 到 20 个不同的支持团队。这些团队可以按照网络、计算、数据库、存储、云端、系统管理等领域进行分类。假设发生了 IT 中断情况,且在此期间触发了约 10000 个事件。
传统解决方案:每个人都快速移动到网桥呼叫上,利用工具对域进行分类,并展示/表明各自的研究结果。
大约需要耗费的工时:20
OneAlert 解决方案:创建一个参数。对 10000 个事件进行分析,有 25 个事件与 IT 中断相关,但所有事件都涉及计算和网络层。OneAlert 仅通知计算和网络团队,其他所有团队都不会收到通知。
需要耗费的总工时:2
假设一年中有 200 件优先级为 1 级的事件。如果 OneAlert 能在每个事件上节约 18 个小时的时间,那么每年就能为团队节约 3600 个小时,极大地提高了工作效率!普通员工每年工作 1900 个小时(一年工作 50 周,每周工作 38 个小时),因此对一般企业来说,OneAlert 提高的工作效率具有重要意义。
OneAlert 团队还可以通过哪些方式来提高工作效率?
事件升级
如果收到告警信息后,你无法解决该告警,可以迅速转发告警给更适合或专长处理的人;或者设置该告警自动升级到二线排班人员。在事件升级前,OneAlert 提供各种沟通方式,如 QQ 群、简聊、钉钉、App 等,让每个团队在最大限度内团队解决事件,防止不必要的升级。
将适当的事件指派给适当的团队,这在提高企业运营效率的道路上,是相当重尽管如此,即使事件由适当团队接手,仍然有很大的空间来优化处理事件的方式。每个事大的进展。件耗时多久?从头到尾分别采取了哪些措施?是否存在值得注意的问题和根源?是否正确记录了事件?OneAlert 对这些指标进行了监测,提供分析功能,方便管理人员不断了解其团队的工作效率,有利于不断进步。
后语
ITOA 不仅是为 IT 运维服务的一套工具,更是一套完整的解决方案,它可以帮助 IT 运维人员更高效地进行运维,提高 IT 运维的效率,是 IT 运维发展到一定阶段的必然产物。
企业最大的财富就是员工,如果不能有效地安排员工工作,就要付出很大的代价。如今,企业面临着 IT 支持不足的窘境,而 OneAlert 正在快速改变这一局面。通过明确定义各个团队及其指定职责,从而实现对事件的自动指派,最终帮助企业优化支持团队,更快地解决事件。
OneAlert 是北京蓝海讯通科技有限公司旗下产品,是国内第一个 SaaS 模式的云告警平台,集成国内外主流监控/支撑系统,实现一个平台上集中处理所有 IT 事件,提升 IT 可靠性。想了解更多信息,请访问 OneAlert 官网,欢迎免费注册体验 。
本文转自 OneAPM 官方博客