Prometheus——进行服务器性能监控的一件法宝

最近一直在思考如何对线上服务做深度监控。基础的服务可用性监控很简单,定期Ping即可。但是怎样才能监控服务器的一些更加关键的数据呢?比如,每一个API Point的请求次数(QPS),最大响应时间,平均响应时间等。最终我希望实现的效果是有一个Dashboard,我可以清楚地看到各种参数曲线,对服务器的运行情况了然于胸。

绘制Dashboard不难,目前提供数据可视化的工具很多,随便选一个都能满足需要。关键问题是,怎样将整个流程打通?

服务器该以怎样的形式暴露出数据?

数据怎样被收集和存储起来?

存储起来的数据怎样提供给数据可视化工具?

怎样做到足够灵活,可以可视化自己感兴趣的任意数据?

Prometheus

像QPS和响应时间这些数据,外部工具是没办法直接拿到的,必须要服务器以某种方式将数据暴露出来。最常见的做法是写日志。比如Nginx,每一条请求对应一个日志,日志中有响应时间这个字段。通过对日志分析,我们就可以得到QPS,最大响应时间,平均响应时间等,再通过可视化工具即可绘制我们想要的Dashboard。

日志这个方法固然是可行的,但是还有更好的方法。这个方法就是时序数据库(Time Series Database)。时序数据库简单来说就是存储随时间变化的数据的数据库。什么是随时间变化的数据呢?举个简单的例子,比如,CPU使用率,典型的随时间变化的量,这一秒是50%,下一秒也许就是80%了。或者是温度,今天是20度,明天可能就是18度了。

Prometheus就是一个用Go编写的时序数据库,官网对其的优点介绍的很清楚,这里就不再赘述了。总之,使用简单,功能强大。

安装

安装直接去官网下载对应的安装包即可。当然,如果你是Mac用户的话,brew永远不会让你失望brew install prometheus。

格式

Prometheus获取数据的策略是Pull而不是Push,也就是说,它会自己去抓取,而不用你来推送。抓取使用的是HTTP协议,在配置文件中指定目标程序的端口,路径及间隔时间即可。这也就意味着任何程序想要使用Prometheus存储数据都很简单,定义一个HTTP接口即可。

Prometheus的数据格式是简单的文本格式,可以直接阅读。其中,#号开头的是注释,除此之外,每一行一个数据项,数据名在前,值在后。{}中是标签,一条数据可以有多个标签。

配置

Prometheus使用YAML进行配置。global配置一些全局信息,scrape_configs配置具体想要抓取的目标。这段配置的含义是:启动一个叫做go-test的任务,每隔五秒钟,访问localhost:8888/metrics获取数据。

测试程序

我们来写一个程序测试一下Prometheus的功能。虽然可以手动返回Prometheus需要的数据,但是使用开发好的客户端会更加方便。

这里我们使用Go语言,编写一个简单的服务器和客户端。客户端会以一个稳定的速度请求服务器的/test路径,但是每两分钟会加大流量,持续30秒再回到之前的水平。服务器95%的情况下会花费50ms进行响应,还有5%的情况下会花费100ms。

这里我们定义了两个指标,httpRequestCount记录HTTP的请求数,httpRequestDuration记录响应时间,他们都有一个endpoint标签用于记录请求路径。这两个指标分别是Counter类型和Summary类型,Prometheus定义了四种指标类型,基本涵盖了各种用例场景,具体可以去看相关文档。简单来说,Counter类型的数据表示一个只会向上增加的数据,比如请求数。而Summary类型的数据表示一个按区间分布的数据,比如响应时间或者请求体大小。


  1. /** @Author: CJ Ting* @Date: 2017-03-12 17:27:23* @Last Modified by: CJ Ting* @Last Modified time: 2017-03-12 23:49:55 */packagemainimport("log""math/rand""net/http""time""github.com/prometheus/client_golang/prometheus""github.com/prometheus/client_golang/prometheus/promhttp")varhttpRequestCount=prometheus.NewCounterVec(prometheus.CounterOpts{Name:"http_request_count",Help:"http request count",},[]string{"endpoint"},)varhttpRequestDuration=prometheus.NewSummaryVec(prometheus.SummaryOpts{Name:"http_request_duration",Help:"http request duration",},[]string{"endpoint"},)funcinit(){prometheus.MustRegister(httpRequestCount)prometheus.MustRegister(httpRequestDuration)}funcmain(){http.Handle("/metrics",promhttp.Handler())http.HandleFunc("/test",handler)gofunc(){http.ListenAndServe(":8888",nil)}()startClient()doneChan:=make(chanstruct{})<-doneChan}funchandler(whttp.ResponseWriter,r*http.Request){start:=time.Now()path:=r.URL.PathhttpRequestCount.WithLabelValues(path).Inc()n:=rand.Intn(100)ifn>=95{time.Sleep(100*time.Millisecond)}else{time.Sleep(50*time.Millisecond)}elapsed:=(float64)(time.Since(start)/time.Millisecond)httpRequestDuration.WithLabelValues(path).Observe(elapsed)}funcstartClient(){sleepTime:=1000gofunc(){ticker:=time.NewTicker(2*time.Minute)for{<-ticker.CsleepTime-ticker.CsleepTime=200<-time.After(30*time.Second)sleepTime=1000}}()fori:=0;i<100;i++{gofunc(){for{sendRequest()time.Sleep((time.Duration)(sleepTime)*time.Millisecond)}}()}}funcsendRequest(){resp,err:=http.Get("http://localhost:8888/test")iferr!=nil{log.Println(err)return}resp.Body.Close()}copy code  

启动Prometheusprometheus -config.file config.yml以后,再启动我们的测试程序go run test.go。打开Prometheus控制台localhost:9090/targets就可以看到Prometheus正在抓取数据,一切正常。

控制台

Prometheus的一个强大之处在于可以使用各种函数和操作符来查询数据。在上面的测试程序中,每个数据都带有endpoint这个标签,表示请求的路径。

打开Prometheus的控制台http://localhost:9090/graph,点击console标签页,输入http_request_count{endpoint="/a"}就可以查询路径为/a的API Point到目前为止的总请求数。

如果想看QPS的话,可以使用自带的函数rate,rate(http_request_count[10s])表示以10s作为时间单元来统计QPS。

Prometheus的控制台自带一个简单的绘图系统,点击graph标签页,输入表达式就可以看到图表。

例如输入rate(http_request_count{endpoint="/test"}[10s])就可以看到我们测试程序中/test路径的QPS,从图中可以明显发现,每隔一段时间就会有一个波峰流量。

httpRequestDuration是一个Summary类型的指标,比简单的Counter要复杂,会生成三个数据项。分别是http_request_duration_sum,表示响应时间加在一起的总和。

http_request_duration_count,表示响应时间的总个数以及http_request_duration,表示响应时间的分布情况,这个数据项会使用quantile标签对响应时间进行分组。

如下图所示,quantile=0.5值为50,表示50%的请求响应时间都在50ms以下。quantile=0.9的值为54,表示90%的请求响应时间都在54ms以下。但是,quantile=0.99的值为103,表示99%的请求响应时间在103ms以下。这就说明了一个问题,那就是极个别的请求耗费了大量时间。

通过使用表达式http_request_duration_sum / http_request_duration_count,我们可以得到平均响应时间,如下图。

当然,这个图的作用不大(平均数往往反映不了什么问题),不像上图那样,我们无法看出有部分请求花费了大量时间。

以上只是对数据项的最简单利用,Prometheus自带了很多函数和操作符,可以方便地对数据进行处理,具体可以参考官方文档。

Grafana

Prometheus自带的图表是非常基础的,只能用来临时查看一下数据。如果要构建强大的Dashboard,还是需要更加专业的工具才行。这个工具就是Grafana。

安装

同样是去官网下载相应的安装包。Mac用户可以再次感受到brew的优越性。brew install grafana。

启动

直接用默认配置就挺好的。在Mac上,启动指令如下。

Grafana默认监听在3000端口上,默认用户名和密码都是admin。

设置

输入用户名和密码以后,进入Grafana页面。第一件事是要设置数据源(Data Source),即Grafana从什么地方获取数据,选择Prometheus即可。

数据源设置好以后,接下来就是创建Dashboard了。Dashboard里面可以放置很多“组件”。比如图表,状态值,表格,文字等。

这里我们选择Graph图表,Grafana会创建一个默认的空图表。

点击图表标题,选择Edit来编辑图表参数。最重要的参数就是Metrics标签里的Query字段,这个字段定义了我们的图表到底要展示什么数据。

输入rate(http_request_count{endpoint="/test"}[10s]),就可以看到/test路径的QPS曲线了。

同理,在Query中输入http_request_duration就可以得到响应时间曲线。通过使用Prometheus提供的操作符和函数,我们可以对数据进行我们想要的任意可视化,十分灵活。

在这两个工具的配合使用下,对服务器信息的监控变得非常简单。首先,服务器定义一个HTTP接口,暴露出想要监控的数据,然后使用Prometheus收集并存储这些数据,最后在Grafana中绘制这些数据。一个完整的监控方案就诞生了。

当然,在实际系统中,还缺少了一个环节,那就是报警。监控发现问题以后,需要马上报警通知相关的维护人员。这是另外一个话题了,以后再介绍。

本文作者:佚名

来源:51CTO

时间: 2024-12-24 20:19:07

Prometheus——进行服务器性能监控的一件法宝的相关文章

利用SNMP和监控宝实现vps服务器性能监控

再我们管理服务器时候windosw系统较为直观,cpu使用多少,内存用了多少带宽等等 只要在远程桌面里 的任务管理器一目了然.但是在linux环境下就没那么轻松了,尤其服务器或者vps上运行的是大型网站,如果不能及时发现服务器性能消耗,很有可能导致网站在访问高峰期,出现卡死都不知道什么情况.那么就老鹰就介绍下如何利用SNMP加监控宝实现vps性能监控,测试平台CentOS. 1.我们需要安装一个组件 NET-SNMP 命令如下: yum install net-snmp net-snmp-dev

利用SNMP和监控宝实现linux vps 服务器性能监控

中介交易 http://www.aliyun.com/zixun/aggregation/6858.html">SEO诊断 淘宝客 云主机 技术大厅 在我们管理服务器时候windosw系统较为直观,cpu使用多少,内存用了多少带宽等等 只要在远程桌面里 的任务管理器一目了然.但是在linux环境下就没那么轻松了,尤其服务器或者vps上运行的是大型网站,如果不能及时发现服务器性能消耗,很有可能导致网站在访问高峰期,出现卡死都不知道什么情况.今天介绍下如何利用SNMP加监控宝实现vps性能监控

linux中SNMP+监控宝实现简单的服务器性能监控

监控宝推荐使用NET-SNMP,所以本文也以此为例.   首先,我们安装NET-SNMP.    代码如下 复制代码 yum install net-snmp net-snmp-devel net-snmp-utils   接下来我们开始配置NET-SNMP.   在配置之前,我们需要先确认已关闭SELinux(CentOS系统注意),然后,先暂时停止NET-SNMP    代码如下 复制代码 service snmpd stop   然后,添加一个只读账户(如vpsaa.com),创建一个密码

服务器性能监控之性能计数器

文章来源:http://blog.csdn.net/lhfzd2004/article/details/1722379 上一篇文章<服务器性能监控之WMI>介绍了通过远程com获取服务器性能(当然也可用于本地),那么这篇主要说说windows系统自带的性能监视功能----->performancecouonter. 打开管理工具-->性能,我们可以立即看到服务器的CPU,进程运行时间,磁盘容量等性能参数走势图.然而不仅仅是这几项,我们可以通过添加技术器来查看其他的性能指标: 如果你

5款服务器性能监控神器介绍 (smokeping、cacti、nagios、zabbix、ntop)

1. smokeping Smokeping 是rrdtool 的作者Tobi Oetiker 的作品,是用Perl 写的,主要是监视网络性能,包括常规的ping,用echoping监控www 服务器性能,监视dns 查询性能,监视ssh 性能等.底层也是rrdtool做支持,特点是画的图非常漂亮,网络丢包和延迟用颜色和阴影来表示.在企业中运用较少. 2 cacti Cacti是一套基于PHP,MySQL,SNMP及RRDTool开发的网络流量监测图形分析工具. 简单的说Cacti 就是一个PH

服务器性能监控之WMI

1.WMI简介 WMI是英文WindowsManagementInstrumentation的简写,通过使用WMI,我们可以获取本地或远程服务器的性能参数和进程运行情况,以及大部分硬件信息,但前提是运行的用户要有足够的权限,如administrator组用户等.这也是做负载均衡所需要且比较方便快捷的途径. 2.使用时首先添加System.Management.dll,然后引用 usingSystem.Management; 3.定义远程访问 publicclassManagementConnec

服务器性能监控+邮件发送

客户端代码 using System; using System.Collections.Generic; using System.ComponentModel; using System.Data; using System.Diagnostics; using System.ServiceProcess; using System.Text; using System.Threading; using System.Management; using System.Configuratio

利用windows性能计数器进行服务器性能监控

using System; using System.Collections.Generic; using System.Text; using System.Diagnostics; using System.Threading; using System.Management; using System.Runtime.InteropServices; using System.Data; using System.Data.SqlClient; using System.Directory

关于Java性能监控您不知道的5件事,第2部分:利用JDK内置分析器进行Java进程

关于Java性能监控您不知道的5件事,第2部分:利用JDK内置分析器进行Java进程监控 全功能内置分析器,如 JConsole 和 VisualVM 的成本有时比它们的性能费用还要高 - 尤其是在生产软件上运行的系统中.因此,在聚焦 Java 性能监控的第 2 篇文章中,我将介绍 5 个命令行分析工具,使开发人员仅关注运行的 Java 进程的一个方面. JDK 包括很多命令行实用程序,可以用于监控和管理 Java 应用程序性能.虽然大多数这类应用程序都被标注为 "实验型",在技术上不