优云蒋君伟:运维监控大数据的提取与分析

本文内容整理来自【敏捷运维大讲堂】蒋君伟老师的线上直播分享。分别从以下3个维度来分享:1、云时代监控分析的窘境;2、使用标签标记监控数据的维度;3、监控数据应用场景。

云时代监控分析的窘境

在虚拟化与容器技术广泛应用的情况下,运维对象大规模地增长,监控平台每天存储的指标都以亿计,所以监控数据如今已经成了大数据。传统的监控工具在这种场景下,对于数据的提取分析,已经力不从心,反而成为了运维的负担。

我们用一个典型的互联网档案分析应用举例说明:

这个应用支持容灾与负载均衡,它部署在三个数据中心,并同时提供服务;

应用按微服务思想设计,内部划分为多个技术组件,包括APIGateway、档案、登记、通知、支付及一些数据库服务

技术组件可弹性扩缩容

这样的应用目前很常见,它有这样一些特征:

变:架构变、实例变

由于研发每周都在迭代,可能随时都加增加新的技术组件种类,如增加一个MongoDB作为文档类数据存储;同时由于弹性扩缩容,每个技术组件的实例时刻也在变,比如下图,就减少了一个档案服务,增加了一个支付服务:

这给监控带来了难题:如何监控经常变化的目标? 答案是:监控配置自动化,随基础架构扩展,并标记监控目标。

在Zabbix与UYUN Monitor产品中,都可以使用自动部署与发现来实现自动扩展监控。Zabbix主要使用标记与自动分组的方式,而Monitor则使用标签的方式:

多:种类多、实例多

一个公司可能存在30多个这样的集群应用,它使用上百种技术组件,数千个虚拟机或容器实例。如此大的规模,带来了巨大的监控复杂度,新的难题是:我们变得更难预测的故障诊断场景!

我们举几个具体的场景来说明这点:

场景1:我想要知道所有的档案查询次数

档案查询次数是衡量整个应用业务量的一个重要指标,这个场景的难点是档案服务是多实例的,并且分布在多个数据中心。针对这个场景,我们的解题思路是:合计所有数据中心的所有档案服务的查询API调用次数,即下图中所有红色部份:

使用Zabbix时,可以按如下步骤:

创建一个档案服务group,包含所有数据中心的所有档案服务

创建一个item,使用汇聚 groupfunc 合计 group 内的所有查询API调用次数

使用UYUM Monitor时,则配置如下字符串即可:

m=sum:查询API调用次数{技术组件=档案服务}

实现效果:

场景2:我想知道APIGateway TCP连接数三个中心的各自占比

通过连接数占比,我们可以分析出各个数据中心的负载是否均衡。其解题思路是:独立合计每个数据中心的APIGateway TCP连接数,即如下红色部份:

使用Zabbix时,可以按如下步骤配置:

创建三个数据中心APIGateway group g1. 杭州东 APIGateway group g2. 杭州西 APIGateway group g3. 宁波 APIGateway group

创建对应item 分别统计其TCP连接数合计

使用UYUM Monitor时,还是配置如下字符串即可:

m=sum:TCP连接数{数据中心=*,技术组件=APIGateway}

实现效果:

场景3:我想知道各种服务的主机CPU平均利用率趋势

通过将一些技术组件的CPU利用率在一个趋势图中显示,我们可以利用指标间的正相关性,来分析组件间的影响,比如档案服务的CPU利用率升高时,提供其数据的Redis服务CPU使用率也在升高。其解题思路为:分别为每种服务求得其主机CPU平均利用率,并在一个趋势图中展示。

使用Zabbix时,可以按如下步骤配置:

创建各个技术组件对应的group,包含:是APIGateway、档案、登记、通知、支付、MySQL等等

创建对应item 分别统计其主机CPU利用率平均值

而使用UYUM Monitor时,依然是配置如下字符串:

起始时间=30分钟前&m=avg:主机CPU利用率{技术组件=*}

实现效果:

使用标签标记监控数据的维度

我们可以看出,Zabbix与Monitor针对一些数据的提取方式是不一样的。Zabbix更多的是使用Group分组的方式,来梳理某些维度同类型的信息,这种方式是我们过去惯用的,组织一棵树来抽象世界。

但是,世界其实是平的,各种事物实际上是平等存在的,只是它们有着各自的特性而已。所以,我们所需要的只是按需用这些特性标签来提取它们。举例来说,下图就可以看到两个主机的各种标签:

使用UYUN Monitor时,可以按很多种不同的方式来建立标签,包括:

1、安装代理时指定

2、查看主机信息时指定

3、以及通过自定义脚本推送指标时指定 推送到本机代理:

在为监控对象建立好这些标签后,我们就可以充分使用标签带来的便利,随需查询,不预设场景。

监控数据应用场景

新一代的监控系统,其本质实际上是一个监控大数据收集与分析平台,它不限定监控底层的数据来源以便全面覆盖运维对象,通过海量存储与灵活的数据提取能力,为上层的各种运维场景,提供如大屏可视化、报警、分析报表等功能。

UYUN Monitor 也提供了多种上层的运维分析功能,包括:

1、个性丰富的仪表盘,能灵活提取各类监控数据按多种方式展现

2、指标的阈值检查策略,能对集群指标进行综合汇聚与告警

3、第三方数据查询OpenAPI,提供数据的二次消费入口

可以看出,面对云时代,我们对监控系统的要求已经产生了变化,监控系统实际上已经转变 为一个监控大数据收集与分析平台,它不限定监控底层的数据来源以便全面覆盖运维对象, 通过海量存储与灵活的数据提取能力,为上层的各种运维场景,提供如大屏可视化、报警、 分析报表等功能。

本次主题《监控大数据的提取与分析》的分享希望对大家有所帮助,优云敏捷运维大讲堂面向运维领域的技术分享、最佳实践将不定期与大家见面,敬请期待。

讲师介绍

蒋君伟

•  IT运维领域资深专家,优云软件产品总监,拥有10年运维实战经验

•  先后研发了网络管理、系统管理、CMDB、ITSM等产品,并成功建设了多个全国性的网络运维管理项目

优云全线产品免费试用:https://www.uyun.cn

时间: 2025-01-21 10:05:47

优云蒋君伟:运维监控大数据的提取与分析的相关文章

优云蒋君伟:自动化运维成本仍然很高

9月10日-11日,上海光大国际会展中心隆重举办了"2017上海站CNUTCon全球运维技术大会".本次大会的主题是"智能时代的新运维",各个公司为观众带来了他们关于该主题的思考,并分享了他们的实践经历.InfoQ有幸邀请了杭州优云软件有限公司的产品副总裁蒋君伟老师接受我们的采访.谈到对自动化运维未来的展望,蒋老师表示自动化运维必然是大势所趋,但是因为相关技术债务的存在,自动化运维的成本还很高.那优云自己的技术与产品是如何去做高效运维的呢?本次采访带你了解一二. I

2016年新运维:优云论《普通运维人员就是秋后的蚂蚱》

2015年第一天,51CTO博主alex曾发表了<普通的运维人员就是秋后的蚂蚱>的博文,为广大的运维界同仁们敲响了警钟.文章主要从资源集中化和高度自动化两个行业大趋势出发,断言普通的运维人员已经走在了被淘汰的路上,IT自动化必将砸掉大多数不思进取的运维人员的饭碗,寿终正寝只是时间问题. ​敏捷运营要求BizDevOps一体化 博文中提到的资源集中化,可以理解为云计算.2008年谷歌率先提出了云的概念,它将传统的IT计算能力形成资源池,进行弹性配置并对外提供按需服务,具体表现为服务化和平台化.

优云丨2017全球运维大会上海站纪实

2017全球运维大会上海站于2017年11月20日-21日在上海光大会展酒店隆重举办,汇聚国内一线运维专家和诸多运维同仁达600余名.作为长期致力于企业级高端运维市场软件开发和咨询服务的优云软件受邀参与本次运维界的盛会.  ▲大会现场 ▲参会嘉宾在优云展台前咨询交流 ▲参会嘉宾在优云展台前咨询交流 本次运维大会,一共来了12家运维行业上下游厂商,有金山云.腾讯云.Ucloud等,但优云依然能够在12家公司里脱颖而出,吸引众多参会嘉宾的目光与注意力.与市面上其他同类产品相比,优云主要有以下5点优势

优云亮相GOPS2017全球运维大会 “黑科技”获全场最高关注

2017年4月21日,GOPS――2017全球运维大会于深圳・圣淘沙酒店拉开帷幕.GOPS全球运维大会由高效运维社区(GreatOPS)和开放运维联盟(OOPSA)联合主办,由工信部信通院数据中心联盟(DCA)任指导单位.全球运维大会是国内第一个运维行业大会,面向互联网及传统行业.广大运维技术人员,传播先进技术思想和理念,分享业内最佳实践. 优云软件携运维黑科技"ChatOps"亮相,获得全场最高关注. ChatOps是什么? 优云 ChatOps是一款颠覆性的运维协同产品,基于即时信

最简单也最难:运维监控的最后1公里

谈运维我们不得不提监控,监控是运维的起点,也是难点.随着IT架构逐渐复杂化,从前端到IT底层,中间涉及浏览器.网络.服务器.操作系统.中间件.应用.数据库等,每个环节厂商不尽相同.当出现异常需要定位哪个环节出了问题的时候,排查就耗时耗力,若使用优云监控产品,以上难题不再是问题.优云全栈运维监控覆盖了所有环节的监控,真正做到监控无盲区,运维无隐患. 运维最后一公里是指高度可视化.优云除了提升监控能力还注重可视化,深知可视化是运维的亮点更是本质,为了让每个环节监控的数据更好的展现出来,优云拥有一批在

建设DevOps统一运维监控平台,全面的系统监控你做好了吗?

随着Devops.云计算.微服务.容器等理念的逐步落地和大力发展,机器越来越多,应用越来越多,服务越来越微,应用运行基础环境越来多样化,容器.虚拟机.物理机不一而足.面对动辄几百上千个虚拟机.容器,数十种要监控的对象,现有的监控系统还能否支撑的住?来自于容器.虚拟机.物理机.网络设备.中间件的指标数据如何采用同一套方案快速.完整的收集和分析告警?怎样的架构.技术方案才更适合如此庞大繁杂的监控需求呢 一.统一监控平台架构解析 先做一下回顾,统一监控平台由七大角色构成:监控源.数据采集.数据存储.数

用大数据思维做运维监控

今天一大早就看到了一篇文章,叫[大数据对于运维的意义].该文章基本上是从三个层面阐述的: 工程数据,譬如工单数量,SLA可用性,基础资源,故障率,报警统计 业务数据,譬如业务DashBoard,Trace调用链,业务拓扑切换,业务指标,业务基准数据,业务日志挖掘 数据可视化 当然,这篇文章谈的是运维都有哪些数据,哪些指标,以及数据呈现.并没有谈及如何和大数据相关的架构做整合,从而能让这些数据真的变得活起来.比较凑巧的是,原先百度的桑文峰的分享也讲到日志的多维度分析,吃完饭的时候,一位优酷的朋友也

轻松监控上万台服务器:企业运维监控平台架构设计与实践指南

一.Cacti/Nagios/Zabbix/centreon/Ganglia之抉择  1.cacti   Cacti是一套基于PHP,MySQL,SNMP及RRDTool开发的网络流量监测图形分析工具.   简单的说Cacti 就是一个PHP 程序.它通过使用SNMP 协议获取远端网络设备和相关信息,(其实就是使用Net-SNMP软件包的snmpget 和snmpwalk 命令获取)并通过RRDTOOL 工具绘图,通过PHP 程序展现出来.我们使用它可以展现出监控对象一段时间内的状态或者性能趋势

云时代下 传统运维服务如何突出重围?

本文讲的是云时代下 传统运维服务如何突出重围?[IT168 云计算]2010年,云计算的概念还停留在"云里雾里"时期,企业仍在自建数据中心这件事情上津津乐道,彼时传统的IT运维服务商也过着衣食无忧的逍遥日子.然而,随着新兴技术的飞速发展,云计算.大数据.移动.社交等IT热词逐步进入公众视野,尤其是"互联网+"的概念被提到国家战略层面的高度后,一些非互联网行业的传统企业,也开始积极探索,谋求IT基础架构的转型.一时间,这种可以为企业IT带来更多的灵活性.便捷性和高性价