Cloud Insight!StatsD 系监控产品新宠!

年关将至,Cloud Insight 正式版悄然上线了。没有大张旗鼓的宣传,也没有热热闹闹的庆祝,只是一群人在上线前踏踏实实的优化了两周,然后发版,就是这样一件简单的事。

然而就是这样一个低调的产品,在正式上线之前,就已经累积了数百用户。

要说 Cloud Insight 得先说一说 StatsD. 作为一个基于 Node.js 平台,简单的网络守护进程,StatsD 通过 UDP 或者 TCP 方式侦听各种统计信息,包括计数器和定时器,并发送聚合信息到后端服务。

而在国外基于 StatsD 产生了一系列的工具,或者在成熟的项目基础之上,开始兼容 StatsD。如果按照方向可以划分为如图的几个方向。

有了数据和信息可以做很多事,包括数据集成、可视化、可视化+存储、事件流,甚至将这些结合做出一体化解决方案,针对不同的需求,不同的市场,每一个方向都能产生独特价值。接下来我们大致介绍一下这几个方向。

Integrations

StatsD 本身并不负责定义指标的涵义,所以如果要从数据库或者操作系统中采集数据,需要进行脚本的开发。其中在这方面做出突出贡献的是 Datadog。Datadog 开发的 dd-agent 项目在 GitHub 多达 150 个贡献者,兼容 60 多种操作系统、中间件、数据库。

除此之外,Librato 和 App First 也加入到 StatsD 的阵营中。而基础设施管理的解决方案:Puppet 和 Chef 也开始兼容将 StatsD 批量安装到基础设施中。

Visualization & Data Hosting

光有数据是不够的,良好的可视化才能将数据的作用发挥出来。在可视化这一块影响力较大的 Graphite 作为一个可视化的控件,不仅包含可视化还自带存储的部分。但也有不少人反映 Graphite 自带的界面太难看,得益于开源世界的伟大,我们有了 Grafana 可用,直接部署在nginx上面就行,使用node.js 实现的数据抓取。单论可视化,Grafana 是做得最好的一家,其展现形式丰富,可配置项目巨细靡遗。Signal FX 后来居上,也参与到竞争中。

在数据可视化的基础之上,也有服务开始从事可视化数据的托管服务。例如:Host Graphite。

时间序列数据库和事件处理引擎

其实 StatsD 和时间序列数据库的出现,是相辅相成的。在 OpenTSDB 和 InfluxDB 基础之上,StatsD 的应用才日渐丰满。InfluxDB 是一个开源分布式时序、事件和指标数据库,使用 Go 语言编写,无需外部依赖。对于运维工程师而言,OpenTSDB 可以获取基础设施和服务的实时状态信息,展示集群的各种软硬件错误,性能变化以及性能瓶颈。

再说说事件处理引擎,比如 Bosun 是一个新型的监控和告警系统,使用 golfing 编写,支持定义复杂的告警规则,支持 OpenTSDB、Graphite、Logstash-Elasticsearch 等数据源。Riemann 也开始与时间序列数据库,或者基于 StastD 的一体化解决方案对接,来弥补一些数据展现产品在报警这个方向上的不足。

一体化解决方案

那么,有没有能包含数据集成、可视化、数据存储、事件流处理于一体的解决方案呢?对于中小型企业尤其创业公司来说,自主开发或者利用现有的开源工具进行监控或多或少都会遇到一些问题,既要考虑成本又怕踩坑。这时候除开上述细分的方向之外,提供一体化解决方案的厂商及时出现了。国外这样的厂商有 Datadog、Librato 等等。其中 Datadog 在国外拥有 Facebook、Airbnb 等重量级客户,正大展风头。

而国内只有 Cloud Insight 一家在提供这种一体化解决方案。基于类似的思路,通过轻量级的 StatsD 来达到更高的计算能力,处理日益复杂的基础设施架构。Cloud Insight 在 HBase 存储之上,使用了 OpenTSDB 来对性能指标进行聚合、分组、过滤。同时提供告警功能,后期将会完善事件流的展现方式,除了数据管理功能,还能让团队的沟通、协作更容易。

次时代监控产品——Cloud Insight

关注系统监控的人很多都知道 Zabbix 等开源产品,StatsD 作为新世代的系统监控的核心,目前还处于技术累计过程。越来越多的开源项目加入到它的怀抱中,也有越来越多的公司,在此基础之上加入了研发的资源,或者在与之相关的其他领域中投入成本。

Cloud Insight 通过对 StatsD 的生态环境的研究,整合不同的工具为用户提供一体化解决方案。采用 StatsD 的采集技术,对接 MySQL、Redis、MongoDB,以及 CentOS、RedHat 操作系统,利用 Hbase 存储和 OpenTSDB 的数据聚合、切片等功能,最终流向 Cloud Insight 进行展现。


运维 2.0 时代,监控产品只能做到数据的展现,不算做到真正意义上的易用。Cloud Insight 事件流就是汇集报警、探针启动和操作历史记录于一身的功能。能够让运维人员、研发人员、管理人员,甚至运营人员都参与到 Cloud Insight 这个工具的使用中来,沟通与协作效率更高。

结语

最终 StatsD 是否有可能取代 Zabbix 或 Nagios 成为系统监控的新标准,StatsD 系的种种监控产品,究竟是否会大放异彩,我们拭目以待!
本文转自 OneAPM 官方博客

时间: 2024-10-28 09:32:32

Cloud Insight!StatsD 系监控产品新宠!的相关文章

如何监控业务的响应速度?Cloud Insight SDK 实践分享

一直在说 Cloud Insight 是数据聚合平台,可以用 SDK 和 API 实现业务监控,如今不拿出点实践人们恐怕是不能信服.那今天本文就先简单介绍一下 SDK 可以应用在哪些方面,再举个真实用户场景来让大家看看. 首先说一点,通过 SDK 你可以把你想看的任何数据都接在 Cloud Insight 平台上,例如运营可以把涉及到的用户数据放上去,让开发,运维,boss 随时都可以看到自己产品的用户,如果涉及到多个层次的指标数据(日活,增长,转化,留存...)都有相应的简单操作:开发可以把自

使用 Cloud Insight SDK 监控北京空气质量!

现在越来越多的 App 都开始有广告了.特别是空气质量监测,和天气类的 App,广告还是蛮多的,眼花缭乱,真是够了. 最近刚好在用一款系统监控工具 Cloud Insight,它提供的 SDK 可以把任一数据上传到他们那做展示. 灵机一动,作为一个程序员,自己动手丰衣足食,没什么不能解决的. pip install -i http://pypi.oneapm.com/simple --upgrade oneapm-ci-sdk 这就安装好了. 简单用 ipython 看了看接口文档, gauge

Supervisor 管理进程,Cloud Insight 监控进程,完美!

Supervisor 是由 Python 语言编写.基于 linux 操作系统的一款服务器管理工具,用于监控服务器的运行,发现问题能立即自动预警及自动重启等. Cloud Insight 是一款次世代监控工具兼数据管理平台.使用 StatsD 采集性能指标,在 HBase 存储之上,使用 OpenTSDB 来对性能指标进行聚合.分组.过滤. 使用 Supervisor 的原因 如果你有很多进程在跑,不时还需要 start/stop/restart 一下进程 如果哪天由于某种原因,进程挂了,你需要

如何使用 Cloud Insight SDK 实现 Druid 监控?

Druid 简介与用途 首先说明,这里所说的 Druid 并不是阿里巴巴的数据库连接池项目,而是 Eric Tschetter 创立的一个开源的分布式实时处理系统,希望为烧钱的大数据处理,提供一种更廉价的选择.为了解决查询延迟问题,使用 Hadoop 来实现交互式查询分析很难满足实时分析的需要.而 Druid 提供了以交互方式访问数据的能力,并权衡了查询的灵活性而采取了特殊的存储格式. 作为一个用于大数据实时查询和分析的高容错.高性能开源分布式系统,Druid 能够快速处理大规模的数据,并实现快

Cloud Insight 和 BearyChat 第一次合体,好紧张!

说到 ChatOps 我们可能立刻想到是 Slack(啥?没听过?哦!),但是由于国内网络和语言的问题你可能无法拥有很好的体验了.那就把目光转回国内吧,国内的话就不得不提到 BearyChat 等 ChatOps 工具了(可以理解为协作工具). 在这里我就不对 DevOps 和 ChatOps 的定义做赘述了,网上对此方面的谈论也比较多,给大家推荐一篇相关文章,有时间不妨看下 <当我们在谈论DevOps,我们在谈论什么>这篇文章. 言归正传,最近在公司使用 BearyChat 时发现新集成了一

极客范:如何使用 Cloud Insight 来监控闭路电视?

最近新上线支持 Windows 系统及其组件 监控功能的 Cloud Insight,在系统监控领域基本囊括了对所有主流和部分非主流平台的支持.但是这还不够,Cloud Insight 可不仅仅是一个服务运维的监控工具,还是一个 Geek 范儿的数据管理可视化平台. 这不,有人用 Cloud Insight 实现了对闭路电视系统磁盘数据的可视化,下面我们来看看他是怎么做的.GitHub 地址 以 HIKVision 产品为例,登录管理界面,查看 磁盘信息. 1.配置闭路电视系统打开闭路电视系统的

Datadog Agent是啥?它消耗什么资源?

在资本市场不那么喜人的 2015 年融资 9450 万美元的 Datadog,在运维圈刮起了一阵小旋风.作为国外很值得学习的一款平台监控产品,公司人数不足 100 的 Datadog 为什么吸引了投资人的目光?我们先来了解一下他们的 Agent. 本文系国内 ITOM 行业领军企业 OneAPM 工程师翻译整理自文章 What is the Datadog Agent, What Resources does it Consume?,原作者 Dustin Lawler. 简介 Data dog

时序列数据库武斗大会之TSDB名录 Part 2

[编者按]刘斌,OneAPM后端研发工程师,拥有10多年编程经验,参与过大型金融.通信以及Android手机操作系的开发,熟悉Linux及后台开发技术.曾参与翻译过<第一本Docker书>.<GitHub入门与实践>.<Web应用安全权威指南>.<WEB+DB PRESS>.<Software Design>等书籍,也是Docker入门与实践课程主讲人.本文所阐述的「时间序列数据库」,系笔者所负责产品 Cloud Insight 对性能指标进行聚

Web Scale IT 与 6 种 DevOps 工具

新年伊始,在总结过去一年 IT 行业变化和发展的同时,不少企业更关注未来一年甚至几年的行业趋势.Gartner 于 2014 年发表了文章 Gartner Says By 2017 Web-Scale IT Will Be an Architectural Approach Found Operating in 50 Percent of Global Enterprises 表示: 截止至 2017 年,全球 50% 的企业将使用 Web Scale IT 架构. 在 2016 年年初,我们回