机器学习在 IT 运维管理中的必要性!

机器学习技术在监控工具中的应用已经成为 IT 运维与 DevOps 团队的一大热点话题。尽管相关的使用案例很多,对 IT 团队而已真正的「杀手级应用」是机器学习如何提高实时事件管理能力,从而帮助较大规模的企业提高服务质量。对此,关键在于在用户发现问题之前提早探测异常,进而减少生产事故与中断的负面影响。

那么,在IT运维管理的环境下,机器学习到底是什么?

网上有不少关于机器学习的宏观定义:对于某给定的任务T,在合理的性能度量方案P的前提下,某计算机程序可以自主学习任务T的经验E;随着提供合适、优质、大量的经验E,该程序对于任务T的性能逐步提高。更通俗的来讲,即:随着任务的不断执行,经验的积累会带来计算机性能的提升。

如果在IT运维管理的前提下,也许这样的定义更加准确:机器学习是分析数据,反复地向数据学习,进而在不参考明确模型的情况下,找出隐藏观点的一类方法。

在 IT 运维管理的语境中,机器学习的首要替代方案是为 IT 运维管理建立行为模型,了解这一点非常重要。行为模型方法要求了解基础架构的所有组件,才能理解出现中断或服务质量下降的可能原因。更确切地说,你要试着判断哪些事件和告警模式与你希望监控的条件相匹配。

事实上,大多数 IT 运维管理工具都属于这一类别。不论是过时的遗留事件管理器,还是使用「聚合及查询」方法进行 IT 运维的现代工具。总之,你都要对这些工具进行一定的配置,让它们留意你预先就知道需要搜寻的东西。

而另一方面,机器学习则使用数据本身来寻找值得留意的特征,这些特征可能在事先完全无法预知。例如,非监督式机器学习,可用于分析事件流或日志消息,从而找出异常的消息集群。之后,这些异常可以与某项运维结果相联系,从而捕获潜在中断的原因与症状。

然而,监督式机器学习可用于记录用户针对给定告警及告警集群的活动,并相应地做出算法上的调整。本质上,机器学习利用数据不断地创建并更新行为模型,而不是使用静态的行为模型寻找特定的结果。

在 IT 数字化转型的今天,随之而来的规模复杂度、变更速度以及软件抽象化等挑战成为了机器学习应用于 IT 运维管理的理由。

如果基础架构处于不断变化的状态,根本无法建立起固定的行为模型。如果你想了解来自应用与基础架构的大量数据的意义,使用基于规则的方法无疑是死路一条。在新的软件时代,你必须利用机器学习进行实时的数据分析,这是保证服务质量的必备条件。无可否认,IT 领域正变得越发混杂、虚拟化以及流动化,只有使用机器学习技术,才能坦然应对这些变化。

现代 IT 环境下,不断变化的基础架构会产生大量的事件数据需要处理。在 OneAlert,机器学习主要用于「消除噪音」。例如,面对每秒钟成千上万的告警事件,如何在消除噪音的同时保留有价值的信息事件?

目前 OneAlert 产品对告警事件的压缩率已经高达80%。基于时间片的告警信息压缩已经趋于成熟,基于告警属性相似度的聚类模型能够将告警压缩率达到 95%。而基于机器学习的人工智能压缩更是能够将告警压缩到 99%(我们敬请期待!)

本文转自 OneAPM 官方博客

时间: 2024-10-30 23:15:43

机器学习在 IT 运维管理中的必要性!的相关文章

CIO:云计算数据中心运维管理要点

云计算运维管理的要点云计算在运维管理中其所涵盖的范围非常广泛,其中主要包括了对环境管理.网络管理.软件管理.设备管理.日常操作管理.用户密码管理以及员工管理等多个方面.要良好实现以上的管理目标,则应着重从云计算运维管理中的运行监控.安全性管理和自动化处理这三个要点出发. 运行监控 云计算的运维管理应从数据中心的日常监控人手,对日常维护管理.事件管理.变更管理以及应急预案管理等进行全方位的日常监控,以提前发现问题并消除隐患.通过对云计算良好的运行监控,从而实现对各个系统服务的统一管理,以及对各服务

云计算运维管理的要点和改进研究

云计算在企业运营中的基本工作原理是将计算分布在大量分布式计算机中,从而使企业数据中心的运行和互联网更为相似.通过云计算的运维管理,企业不仅能够实现对IT资源的统一,根据用户的需求提供可量化的存储服务与计算,而且还能有效将资源切换到实际需要的应用中,提高了IT资源的利用率,降低了系统的成本.因而加强对云计算运维管理的要点和改进方式的研究,从而使云计算在企业运营中能发挥出更大的效力,在当前有着重要的现实意义. 一.云计算的概念及特征 1.云计算的概念 云计算(cloud computing)是一种通

IaaS和DevOps成为IT运维管理的新常态

在过去十年里,云计算从一个概念迅速发展成为一个大家普遍接受.并广泛应用于实际生产中的新型IT基础设施.尤其是在公有云IaaS领域,以AWS.阿里云为代表的厂商取得了令人瞩目的成就.如此同时,和云计算几乎同步发展起来的DevOps理念也随着云计算的普及而逐步被人们接受,并成为主流的软件生产方式. 根据Puppet Labs 2014年度调查报表显示,目前有超过半数的受访者已经在实践DevOps.并且该调查报告还显示采用DevOps软件生产方式是企业打造出高效IT服务能力的有利武器,而一个高效的IT

云计算为现代化运维管理体系带来理念

加强对云计算运维管理的要点和改进方式的研究,从而使云计算在企业运营中能发挥出更大的效力,在当前有着重要的现实意义. 一.云计算的概念及特征 1.云计算的概念 云计算(cloudcomputing)是一种通过Internet以服务的方式提供动态可伸缩的虚拟化资源的计算模式,这种模式提供可用的.便捷的.按需的网络访问,进入可配置的计算资源(资源主要包括网络.服务器.应用软件.存储及服务等)共享池,这些资源能够被快速提供,用户可根据个人或团体的需要对云计算的资源进行租赁.继个人计算机变革.互联网变革之

我看ITIL在中国之特色的IT运维管理平台的建设

在开始筹划建设有"中国特色的IT运维管理平台"之前,先来看看我们目前面临的情况: 随着信息化建设的不断深入,各种企业的核心业务都逐步地迁移到IT平台上来,对IT管理的要求也越来越高,IT需要管理,向IT管理要效率,保证IT的有序化发展成为企业的一种共识,在这个过程中,ITIL作为最近几年IT界风头最劲的流行语,已经越来越广泛地被人们所认识和接受,并被很多企业选择作为IT管理优化和改造的首选工具,ITIL成为IT管理的一种标准,但在中国企业采用ITIL的方法来管理IT的时候,却出现了很多

与呼叫中心整合的运维管理平台解决方案

前言 近十年来,数据中心的建设也经历了传统的分散式数据中心向大集中数据中心.云数据中心阶段发展,而数据中心在不同发展阶段的技术特性与管理特性也决定了数据中心运营管理模式的变迁,尤其是在数据中心的运维服务管理方面. 传统的数据中心运维管理核心是IT安全运行保障,提出了著名的"四不原则"--业务不停.网络不断.系统不瘫.数据不丢,这一核心理念在数据中心安全生产过程中起到了非常重要的作用,并且是数据中心运营初期阶段最主要的成效评价依据.而"两地三中心"为代表的大集中式数据

IT运维管理梦里寻人

如何选择IT运维管理系统,虽然早已成为国内用户关心的话题, 但是用户在选择运维管理系统时还是有 诸多因素限制而 往往举棋不定.不妨换个角度考虑问题,从我们实际工作中经常接触到的管理内容着手,逐项梳理提炼需求,这样可以让我们在选择运维系统时反而更加易于找到立足点,做出明智的抉择.科学的运维管理系统的建设思路事实上,用户实际管理工作中,经常接触的管理内容按IT管理阶段大致分为三大块:对基础架构的管理.对应用服务的管理和对业务服务的管理.基础架构管理是IT管理的基础和底层数据的来源,也是管理的基本元素

云环境下IT运维管理的绿色节能研究

云环境下IT运维管理的绿色节能研究 刘锋 李淑芝 针对当前服务器应用的海量增加,能源的不断紧缺,而传统的IT服务管理低效.单一.资源浪费以及在复杂的组合优化类问题上的不足,提出了一种基于云计算的IT运维管理与服务模式创新的研究.该方法立足于云计算应用环境,建立在Web2.0.ITIL V3.0和SOA架构体系之上,以云服务资源库为核心,结合现有传统IT运维管理技术及云计算平台管理优势.该研究则侧重从绿色环保节能这一方面来研究该方法的节能性与市场需求必要性. 云环境下IT运维管理的绿色节能研究

运维管理平台实现与学习心得

经过一段时间的学习,写了一个简单的运维管理平台小项目,先看看啥样吧! 下面说明下具体实现: 软件架构:HTML+CSS+Jquery+Bootstrap+Ajax+Python2.7+Django1.9+SaltStack+MySQL 功能描述: 数据可视化:采用百度开源的ECharts绘图,通过Python脚本每分钟统计Nginx日志分析PV/UV量写到数据库. 资产管理:采用SaltStack Restful API二次封装调用收集主机配置信息入库,并提供增删改查. 主机批量管理:也是调用S