Supervisor 管理进程,Cloud Insight 监控进程,完美!

Supervisor 是由 Python 语言编写、基于 linux 操作系统的一款服务器管理工具,用于监控服务器的运行,发现问题能立即自动预警及自动重启等。

Cloud Insight 是一款次世代监控工具兼数据管理平台。使用 StatsD 采集性能指标,在 HBase 存储之上,使用 OpenTSDB 来对性能指标进行聚合、分组、过滤。

使用 Supervisor 的原因

  • 如果你有很多进程在跑,不时还需要 start/stop/restart 一下进程
  • 如果哪天由于某种原因,进程挂了,你需要重启进程或定时执行脚本
  • 如果有多个进程,有些是同一项目,尽量可以同时启动/停止等

如果你有以上任意一种情况,那用 Supervisor 管理进程无疑再合适不过了,把你所有 *nix 进程都配置进 ini 文件中,这样所有的进程就变成了 Supervisor 的子进程。对于子进程,Supervisor 可以做到准确管理(有 web 界面),可以进行分组,一组组的 或者授权非 root 用户。

Supervisor 管理进程, Cloud Insight 监控进程

Supervisor 只能管理进程,对进程进行操作,但不能监控进程,虽然有 web 界面可以显示/管理的进程,但不具备一般意义上的监控。例如实时展示进程数据,出现问题有相应报警邮件。

Cloud Insight 可以监控 Supervisor 管理的进程数量和运行情况,也可以单独监控进程,也就是说进程无论是否被 Supervisor 管理,Cloud Insight 都可以监控。

像上面图片这样,监控所有进程的 IO 读写,内存,CPU,打开文件等等,也可以配置单个某一个进程的上述指标,查看正常情况下进程的资源消耗,如果出现异常邮件报警。例如假死等情况发生的时候,进程也没挂,但资源消耗会有异常,这些通过告警通通提前知道。

Cloud Insight 支持监控 Supervisor

Cloud Insight 不仅可以监控进程相关的数据,同样支持监控 Supervisor。Supervisor 管理进程的启动/停止/重启,如果 Supervisor 本身出问题了,那前面那些进程操作也就执行不了,虽然 Supervisor 本身不会出现什么问题,但这也不是万无一失的,所以监控上还是好的。

监控进程,设置告警

如果有一个进程挂了,或者假死,怎么能够及时知道?

配置上图这样的报警策略:

  • 选择性能指标:指标任意选一个 process 的指标,over 选定特定进程,例如 process:python 就是监控 Python 进程数据的。
  • 设置报警条件:设置一个阈值,达到阈值时会触发报警;此外还可以配置设置数据丢失(进程挂了自然也就不会再发送数据)时,直接发送报警邮件。
  • 再下面,就是命名报警和设置通知用户。

总之,如果你关心你的应用进程情况,或者在使用 Supervisor,不妨试试 Cloud Insight,永久免费版等你来用!

本文转自 OneAPM 官方博客

参考文档:

时间: 2024-09-14 01:37:41

Supervisor 管理进程,Cloud Insight 监控进程,完美!的相关文章

Cloud Insight 和 BearyChat 第一次合体,好紧张!

说到 ChatOps 我们可能立刻想到是 Slack(啥?没听过?哦!),但是由于国内网络和语言的问题你可能无法拥有很好的体验了.那就把目光转回国内吧,国内的话就不得不提到 BearyChat 等 ChatOps 工具了(可以理解为协作工具). 在这里我就不对 DevOps 和 ChatOps 的定义做赘述了,网上对此方面的谈论也比较多,给大家推荐一篇相关文章,有时间不妨看下 <当我们在谈论DevOps,我们在谈论什么>这篇文章. 言归正传,最近在公司使用 BearyChat 时发现新集成了一

linux中使用 supervisor 管理进程

一,supervisor 简介 通常我们要启动一个服务时,例如 nginx,一般使用 service nginx start 或者 /etc/init.d/nginx start ,但是当系统运行多个服务时,一个个启动与停止则很麻烦,当服务故障时,还得手动进行重启,supervisor 正好能解决这些问题,supervisor 是一个用 Python 写的 C/S 进程管理工具,可以很方便的用来启动.重启.关闭进程,在批量服务化管理时特别有效,可以对多个进程同时进行管理并且可以监控进程,当某个服

如何使用 Cloud Insight SDK 实现 Druid 监控?

Druid 简介与用途 首先说明,这里所说的 Druid 并不是阿里巴巴的数据库连接池项目,而是 Eric Tschetter 创立的一个开源的分布式实时处理系统,希望为烧钱的大数据处理,提供一种更廉价的选择.为了解决查询延迟问题,使用 Hadoop 来实现交互式查询分析很难满足实时分析的需要.而 Druid 提供了以交互方式访问数据的能力,并权衡了查询的灵活性而采取了特殊的存储格式. 作为一个用于大数据实时查询和分析的高容错.高性能开源分布式系统,Druid 能够快速处理大规模的数据,并实现快

极客范:如何使用 Cloud Insight 来监控闭路电视?

最近新上线支持 Windows 系统及其组件 监控功能的 Cloud Insight,在系统监控领域基本囊括了对所有主流和部分非主流平台的支持.但是这还不够,Cloud Insight 可不仅仅是一个服务运维的监控工具,还是一个 Geek 范儿的数据管理可视化平台. 这不,有人用 Cloud Insight 实现了对闭路电视系统磁盘数据的可视化,下面我们来看看他是怎么做的.GitHub 地址 以 HIKVision 产品为例,登录管理界面,查看 磁盘信息. 1.配置闭路电视系统打开闭路电视系统的

sh memcached 进程启动及监控

1.memcached_inc.sh 设置路径,端口等讯息. #!/bin/sh #config include HOST=$(hostname) SITE="mysite" PORT=11211 MEMCACHED_PID_FILE="/tmp/memcached.pid" MEMCACHED_DAEMON_PID_FILE="/tmp/memcached_daemon.pid" MEMCACHED="memcached -d -m

如何监控业务的响应速度?Cloud Insight SDK 实践分享

一直在说 Cloud Insight 是数据聚合平台,可以用 SDK 和 API 实现业务监控,如今不拿出点实践人们恐怕是不能信服.那今天本文就先简单介绍一下 SDK 可以应用在哪些方面,再举个真实用户场景来让大家看看. 首先说一点,通过 SDK 你可以把你想看的任何数据都接在 Cloud Insight 平台上,例如运营可以把涉及到的用户数据放上去,让开发,运维,boss 随时都可以看到自己产品的用户,如果涉及到多个层次的指标数据(日活,增长,转化,留存...)都有相应的简单操作:开发可以把自

使用 Cloud Insight SDK 监控北京空气质量!

现在越来越多的 App 都开始有广告了.特别是空气质量监测,和天气类的 App,广告还是蛮多的,眼花缭乱,真是够了. 最近刚好在用一款系统监控工具 Cloud Insight,它提供的 SDK 可以把任一数据上传到他们那做展示. 灵机一动,作为一个程序员,自己动手丰衣足食,没什么不能解决的. pip install -i http://pypi.oneapm.com/simple --upgrade oneapm-ci-sdk 这就安装好了. 简单用 ipython 看了看接口文档, gauge

Linux进程ID号--Linux进程的管理与调度(三)

进程ID概述 进程ID类型 要想了解内核如何来组织和管理进程ID,先要知道进程ID的类型: 内核中进程ID的类型用pid_type来描述,它被定义在include/linux/pid.h中 enum pid_type { PIDTYPE_PID, PIDTYPE_PGID, PIDTYPE_SID, PIDTYPE_MAX }; 1 2 3 4 5 6 7 1 2 3 4 5 6 7 PID 内核唯一区分每个进程的标识 pid是 Linux 中在其命名空间中唯一标识进程而分配给它的一个号码,称做

[原创]一个简单的windows HOOK - 隐藏进程管理器中特定的进程

一个简单的windows HOOK - 隐藏进程管理器中特定的进程  (适用平台:windows 2000 sp4,windows XP sp2)           屏蔽任务管理器中的进程名称有很多种方法,可以在ring0级做文章: 修改内核进程链表,拦截内核API等.我这里只给出win32下的实现,原 理是最普通的 windows 钩子机制.实现语言 win32 汇编 (masm32):   0 在DllEntry中处理资源取得和产生"工作"线程: mov eax,_hinstan