开源还是商用?十大云运维监控工具横评

随着云计算和互联网的高速发展,大量应用需要横跨不同网络终端,并广泛接入第三方服务(如支付、登录、导航等),IT系统架构越来越复杂。快速迭代的产品需求和良好的用户体验,需要IT运维管理者时刻保障核心业务稳定可用,而企业运维中的痛点和难点也急需解决。

1、面向业务的运维,不但关心单点IT资源的运行状态,更关心整个业务系统的健康状态

2、如果企业使用了大量的API和模块化应用,那么关注每个接口的性能变化情况和指标

3、对于运维主管及企业管理层来说,特别需要上墙的监控大屏

4、运维需要每周、每月查看报告趋势分析,但传统运维工具数据导出困难

5、需要第一时间转雀和快速发现故障节点,减少业务中断带来的损失

云智慧对业内主流的开源运维监控系统和商业运维监控系统进行对比,分析各种产品的定位、目标用户和功能特点,希望帮助广大运维、开发和创业者找到最适合自己的运维工具。

开源运维监控产品篇

Zabbix

推荐星级:

Zabbix是一个基于WEB界面的提供分布式系统监控以及网络监控功能的企业级开源运维平台,也是目前国内互联网用户中使用最广的监控软件,云智慧遇到的85%以上用户在使用Zabbix做监控解决方案。

入门容易、上手简单、功能强大并且开源免费是云智慧对Zabbix的最直观评价。Zabbix易于管理和配置,能生成比较漂亮的数据图,其自动发 现功能大大减轻日常管理的工作量,丰富的数据采集方式和API接口可以让用户灵活进行数据采集,而分布式系统架构可以支持监控更多的设备。理论上,通过 Zabbix提供的插件式架构,可以满足企业的任何需求。

用户群:85%以上的泛互联网企业。

优点:

  1. 支持多平台的企业级分布式开源监控软件
  2. 安装部署简单,多种数据采集插件灵活集成
  3. 功能强大,可实现复杂多条件告警,
  4. 自带画图功能,得到的数据可以绘成图形
  5. 提供多种API接口,支持调用脚本
  6. 出现问题时可自动远程执行命令(需对agent设置执行权限)

缺点:

  1. 项目批量修改不方便
  2. 社区虽然成熟,但是中文资料相对较少,服务支持有限;
  3. 入门容易,能实现基础的监控,但是深层次需求需要非常熟悉Zabbix并进行大量的二次定制开发,难度较大;
  4. 系统级别报警设置相对比较多,如果不筛选的话报警邮件会很多;并且自定义的项目报警需要自己设置,过程比较繁琐;
  5. 缺少数据汇总功能,如无法查看一组服务器平均值,需进行二次开发;
  6. 数据报表需要特殊二次开发定义;

Nagios

推荐星级:

Nagios是一款开源的企业级监控系统,能够实现对系统CPU、磁盘、网络等方面参数的基本系统监控,以及 SMTP,POP3,HTTP,NNTP等各种基本的服务类型。另外通过安装插件和编写监控脚本,用户可以实现应用监控,并针对大量的监控主机和多个对象 部署层次化监控架构。

Nagios最大的特点是其强大的管理中心,尽管其功能是监控服务和主机的,但Nagios自身并不包括这部分功能代码,所有的监控、告警功能都是由相关插件完成的。

用户群:适合复杂IT环境的企业

优点:

  1. 出错的服务器、应用和设备会自动重启,自动日志滚动
  2. 配置灵活,可以自定义shell脚本,通过分布式监控模式
  3. 支持以冗余方式进行主机监控,报警设置多样
  4. 命令重新加载配置文件无需打扰Nagios的运行

缺点:

  1. 事件控制台功能很弱,插件易用性差
  2. 对性能、流量等指标的处理不给力
  3. 看不到历史数据,只能看到报警事件,很难追查故障原因
  4. 配置复杂,初学者投入的时间、精力和成本比较大

Ganglia

推荐星级:

Ganglia是加州大学伯克利分校发起的一个开源集群监控项目,设计之初是用于监控数以千计的网络节点。Ganglia是一个跨平台可扩展的,高性能计算系统下的分布式监控系统。它已被广泛移植到各种操作系统和处理器架构上。

用户群:适用于大型服务器集群用户。

优点:

  1. 适合监控系统性能,通过曲线很容易见到每个节点的工作状态
  2. 可以自定义监控项,监控展示有表格和图像两种,支持手机版
  3. 部署方便,通过不同的分层管理上万台机器,无需逐个添加配置

缺点:

  1. 没有内置的消息通知系统
  2. 没有报警机制,出现问题不能够及时报警

Zenoss

推荐星级:

Zenoss Core是Zenoss的开源版本,其商用版本为ZenossEnterprise。作为企业级智能监控软件,Zenoss Core允许IT管理员依靠单一的WEB控制台来监控网络架构的状态和健康度。Zenoss Core的强大能力来自于深入的列表与配置管理数据库,以发现和管理公司IT环境的各类资产。Zenoss同时提供与CMDB关联的事件和错误管理系统, 以协助提高各类事件和提醒的管理效率。

优点:

  1. Zenoss比较出色的地方在于它的Dashboard,可以配置很多portlet
  2. 每个用户的界面都是分开管理的,自定义dashboard不会影响其他用户
  3. 强大监控功能支持服务器、路由交换、防火墙、存储、数据库、中间件监控
  4. 采用基于HBASE的opentsdb存储任意时间段的数据
  5. 将状态监控,性能监控,资源管理,良好的报告机制进行有机的整合

缺点:

  1. 对资源要求较高,即使只管理少数几台设备,也需要消耗大量硬件及内存等附加资源。
  2. 针对windows系统,开源版只提供SNMP,通过WMI检测CPU,Disk,软硬件和性能只在收费版提供。

Open-falcon

推荐星级:

Open-falcon是小米运维团队从互联网公司的需求出发,根据多年的运维经验,结合SRE、SA、DEVS的使用经验和反馈,开发的一套面向互联网的企业级开源监控产品。

Open-falcon架构

用户群:目前有几十家企业用户不同程度使用。

优点:

  1. 自动发现,支持falcon-agent、snmp、支持用户主动push、用户自定义插件支持
  2. 支持每个周期上亿次的数据采集、告警判定、历史数据存储和查询
  3. 高效的portal、支持策略模板、模板继承和覆盖、多种告警方式、支持callback调用
  4. 单机支撑200万metric的上报、归档、存储
  5. 采用rrdtool的数据归档策略,秒级返回上百个metric一年的历史数据
  6. 多维度的数据展示,用户自定义Screen
  7. 通过各种插件目前支持Linux、Windows、Mysql、Redis、Memache、RabbitMQ和交换机监控。

缺点:

由于发布时间较短,很多基础的服务监控插件(如Tomcat、apache等)还不支持,很多功能还在不断完善中,另外由于缺少专门的支持,虽然有开放社区,但是解决问题的效率相对较低。

商用运维监控系统篇

监控宝

推荐星级:

监控宝是云智慧为用户提供IT性能监控(IT Performance Monitoring)的SaaS产品,包含网站监控、服务器监控、中间件监控、数据库监控、应用监控、API监控和页面性能监控等功能。包含免费版、畅 享版和企业版,目前用户约40万,监控宝app也是国内唯一提供移动监控服务的产品。

用户群:覆盖电子商务、移动互联网、广告传媒、在线游戏、教育医疗等行业的几十万用户,小米、陌陌、高德、用友、金山、途牛、聚美优品、陆金所、 中国平安、建行信用卡中心、春雨医生、畅游、国家电网、中国电信、滴滴打车、春秋航空、凤凰网等各行业领先企业和中国互联网百强企业超过30%在使用监控 宝。

优点:

作为国内最早提供基于SaaS服务的网络监控平台,监控宝不但为初级用户提供免费的标准服务,企业用户还可以按需购买所需的监控、告警资源,最大限度的节省企业运维成本;

监控宝通过遍布全球的300多个分布式监测节点,对网络进行稳定性和可用性的主动监控和实时分析,支持http(https)、ftp、ping、udp、tcp、smtp、traceroute等多种协议,测量CDN效果及DNS状态,全网全地域性能趋势分析。

实时捕捉服务器深层性能指标,支持Linux/Unix/Windows系统及云平台,支持CPU使用率、CPU平均负载、内存使用比例、磁盘 IO、磁盘空间使用率、网络流量和系统进程数统计等物理指标及30多种应用服务,云主机监控端一键开启,无需复杂配置。对于应用服务的监控,监控宝已经支 持常见的应用类型包括:Apache、Lighttpd、Nginx、Tomcat、IIS、Memcache和Redis,存储层监控支持 Hadoop、MySQL、MongoDB、SQLServer、Oracle的健康状态及性能监控。

监控宝是国内目前唯一支持API监控的网络监控产品,通过API接口调用模拟用户使用过程,支持对get、post、put、delete、 head、options六种请求方式进行实时监控;支持JSON、XML、Text、Response Status验证及Postman脚本导入。

Docker监控也是监控宝的独家功能,能够实时监控Docker容器的CPU、内存、网络流量及Swap状态,让开发者和运维人员在使用Docker时清晰掌握其资源消耗状况。

监控宝提供页面性能管理,基于国际标准制定页面性能指数,识别加载元素的状态及正确性,对全网全用户加载响应时间分析,同时准确定位问题元素及优化建议。

及时有效的告警通知对运维来说至关重要,监控宝可以根据SLA设置告警阈值,第一时间发送告警通知。监控宝覆盖最全面的告警通知方式:电子邮件、 短信、电话语音、URL回调通知、App Push等。另外监控宝提供分级告警通知,能够根据告警事件的不同等级将不同的告警推送给不同的人员,支持企业分层管理!

监控宝目前对其Smart Agent进行了开源,用户可以根据业务需求定制化开发Agent,同时用户的数据安全得到保障。

监控宝提供私有化部署解决方案,满足政企、金融行业专有网络监控的需求。

来自Compuware、CA、IBM等企业IT服务资深专家,超过5年的本土化企业级SaaS服务经验,以及超过百人的技术服务团队,为用户提供最佳的服务保障。

360网站服务监控

推荐星级:

360网站服务监控是一款面向广大站长的网站监控产品,提供免费的网站、服务器监控。

用户群:个人站长

优点:

服务免费,支持网站HTTP监控、PING监控、域名DNS监控和服务器监控

提供网站访问全景数据和简单配置信息

缺点:

只支持简单的网站和服务器监控,历史数据保留15天,且免费监控点数量仅为四个

最后一次产品更新是2014年9月,目前已停止更新和运营支持

阿里云监控

推荐星级:

阿里云监控是一款免费网站监控产品,可监控站点和服务器,并提供多种告警方式:短信,旺旺,邮件。

用户群:阿里云用户

优点:

与阿里云服务捆绑紧密,允许用户自定义数据监控

阿里云多IDC间内网数据传输,不占用客户公网资源

支持对业务数据的通用统计,从各个角度反应服务的运行情况

缺点:

所有服务基于阿里云,功能单一,扩展性差

功能不够强大,只能满足基础监控需求

百度云观测

推荐星级:

百度云观测是百度推出的一款云服务产品,类似于360云监控、阿里云监控,主要是为站长提供免费的一站式网站监测、预警服务,功能覆盖网站运行状况、安全和访问速度等多个方面。

用户群:个人站长

优点:

对于用户每日访问的站点进行安全检测

国内各大城市云节点覆盖,支持CDN、DNS状态和主机监控

缺点:

需要进行网站认证

监控点少,功能简单,只能监测网站状态,不支持服务器、应用监控。

小蜜蜂网站监测

推荐星级:

小蜜蜂网站监测是一款针对中小企业需求开发的综合测量网站运营情况线上工具,可以定时监控网站或服务器器的可用率(Uptime),一旦网站无法连结、或是服务器发生错误,即可发送告警通知。

用户群:中小企业网站管理员

优点:

小蜜蜂通过探测节点和Last Mile两种模式监测网站可用性,支持多种站点监控类型和不同的网络访问传输协议;

提供多样化监控告警设置,并支持站内实时告警消息,支持RSS。

缺点:

只支持基本的网站监控,监控点不可选,监控服务不稳定;

网站性能历史数据不够详细,且无法导出。

随着新技术的不断发展,云服务已经互联网企业的必须,但是长期以来会存在传统物理主机和云主机、私有云和公有云并存的状态。此外,互联网企业的发 展速度非常快,小米、滴滴出行等很多企业都是在短短几年内发展起来的,因此选择一款合适的云监控产品,伴随企业同步成长,是非常必要的。

文章转载自 开源中国社区[https://www.oschina.net]

时间: 2024-10-30 03:57:59

开源还是商用?十大云运维监控工具横评的相关文章

如何让云运维变得简单

随着工业4.0的兴起,云计算已经从实验阶段转化为具体实施阶段.除了部署相应的软件.硬件和虚拟化资源,还有一个问题摆在我们面前,如何运维云?如果没有清晰的云运维规划和手段,云数据中心将难以高效的运转起来,所以云运维对于云建设者来说是至关重要的一环.那么云数据中心与传统的数据中心运维有什么共同点和差别?做好云运维应该关注什么?该如何选择一个合适的云运维工具?上述问题都是应该是云运维过程中会遇到的.下文会针对这些问题展开详细论述 一.云运维与传统数据中心运维比较 "云是数据中心的新IT形态"

如何打造一个高逼格的云运维平台?

作者简介 鲁逸丁  中国银行卡组织运维架构师 长期从事金融信息系统运维工作,专注于运维体系建设,对金融企业云计算运维具有深刻理解,银行卡组织云运维平台负责人. 前言 大家做运维普遍经历这样的过程: 首先我们会把操作做一个标准化,这个阶段是运维质量的提升的阶段. 在标准化实施完以后,由于数目的增加,或者是一些运维场景的增多,我们会逐步的进行一些工具化和自动化,这个阶段我们的运维的效率得到提升. 但是众多的工具以及自动化脚本,会让我们的管理过程中比较困难,随着人员的变动或者是一些工具维护过程中的差错

BoCloud博云完成近亿元融资,加速PaaS与云运维落地

5月10日,企业级云平台解决方案提供商BoCloud博云,宣布完成近亿元人民币的B轮融资,该笔融资成为国内迄今为止容器技术.PaaS及自动化运维领域创业公司中规模最大的一笔融资,也是容器领域国内迄今最大的一笔融资.本轮融资由元禾控股.东方富海联合领投,江苏华泰证券互联网基金与邦盛资本参与联合投资.本轮融资证明BoCloud博云的技术.产品.服务.运营能力受到投资人的高度认可,希望通过注资帮助BoCloud博云进一步加强其在市场中的竞争力,加速公司发展,打造公司领导力,扩大公司服务能力,为BoCl

如何搞定云运维——云计算IT基础设施与自动化运维论坛掠影

5月18日~20日,第八届云计算大会在京召开,工业和信息化部副部长怀进鹏出席会议并讲话,云计算大数据领域的9位院士和200多位专家在全体大会和专题论坛上作报告,三天共有超过15000人次听众参会.这个数字远远超过了往届会议,从侧面也足以说明,云计算在国内已经取得了足够的认可和关注. 事实上,有一种趋势无法忽视.企业对云计算的主要诉求从"经济"转变为"业务",也就是说,云计算推广初期所高举的"省钱"大旗不再是企业关注的主要方向,企业更关注云对其业务

2011十大云应用推荐

2011年给软件行业带来了影响巨大,苹果iOS和Android平台井喷式的发展速度让传统软件业的新模式正式从概念变成应用.在今年,中国各大软件厂商纷纷发布云战略,IT厂商纷纷角力云端,一场由"云"引发的风暴正汹涌袭来. 云计算概念推出后不仅助力企业发展,更重要是是为了在"云"端占领一席之地,并且在市场圈到更多的用户,很多大企业在个人云应用市场看到了发光的金矿.因此,把云计算概念用诸个人用户身上自然也就成了众多IT企业的目标. 苹果.联想以及华为等智能手机终端厂商已经

在医疗云颇有建树的十大云供应商

本文讲的是在医疗云颇有建树的十大云供应商[IT168 评论]随着医疗行业IT基础设施的快速发展,企业正在采用大数据分析等措施来分析来自移动和物联网(IoT)设备收集的存储信息.由于要管理更多的数据任务,他们正努力扩展传统的内部部署解决方案,以满足结构化和非结构化临床数据的需求.应用于医疗行业的云存储解决方案使企业能够扩展其IT基础架构,以满足先进的分析和连接医疗设备的需求,从而降低整体成本并节省物理服务器所需的空间. ▲ 根据MarketsandMarkets和Reportbuyer的市场报告显

简析十大云部署最佳实践

根据IT业贸易协会CompTIA的报告显示,如今,有80%的企业都声称在使用某种形式的云解决方案,这些方案既有可以按需启用的虚拟机,也有很容易购买.很容易使用的应用." 趋势科技客户解决方案部经理Laura Maio认为,目前有三大重要趋势在推动着云的使用和部署. 第一趋势是企业将公有云作为其内部环境的一种自然延伸. 第二趋势则是企业的非IT业务部门利用公有云可以更快捷地访问服务器和存储资源. 第三,企业的IT部门本身也有压力,需要构建安全的.功能类似公有云的私有云环境,以便从公有云提供商那里重

阿里云运维部署工具AppDeploy UI界面上线

阿里云运维部署工具AppDeploy版是一个通过SSH实现的流式命令行工具,可用于完成应用部署和远程运维管理,其工作于python平台上,具有良好的可移植性:AppDeploy图形化界面提供友好的用户交互模式,让您更加便捷.直观的实现业务需求.   UI版本免费下载地址: http://market.aliyun.com/products/53690006/cmgj000321.html?spm=5176.900004.4.4.xhgeT3   下图是AppDeploy UI的主管理页面: 脚本

谁是 2015 年推动开源技术的十大领军人物?

在由 ZDnet.com 评选出的"推动开源技术的十大领军人物"中, 微软开放技术公司的总裁 Jean Paoli 榜上有名.对微软一直非常严厉关注的 ZDnet 的编辑 Steven J Vaughan Nichols 对 Jean Paoli 评价说: "记得我曾经说过微软爱 Linux 吗?在这一观点上,Jean Paoli 功不可没.作为微软开放技术公司的总裁,他推动了微软拥抱开源的进程.毋庸置疑,Jean Paoli 的成绩有目共睹,微软开放公司如今重返微软的怀抱,