运维工具大宝典之开源平台篇

本文讲的是 :  运维工具大宝典之开源平台篇  , 【IT168技术】在运维工具大宝典系列第一篇文章《运维工具大宝典之运维需求篇》中,云智慧对上云企业的运维需求进行的汇总,其中第6条“对开源的强烈需求”主要是来自运维人员,特别是技术大牛,他们喜欢一切尽在掌握的感脚,而这就需要开源运维工具。

  目前流行的开源运维工具如Zabbix、Nagios等大部分来自国外,虽然这些开源产品功能非常强大,但对技术要求很高,而且缺少足够的中文文档和本土服务支持,一般运维人员要想用好难度很大。

  于是就有国内IT厂商小米、TalkingData对其自主开发的运维系统进行了开源,同时作为商用监控服务商代表的云智慧,也对其监控宝产品进行逐步开源,让运维、开发人员在获得便捷部署和易用性的同时,可根据自己的业务需求进行灵活的二次开发。

  下面就是云智慧关于开源监控产品的详细评测:

  Zabbix

  推荐星级:

  Zabbix是一个基于WEB界面的提供分布式系统监控以及网络监控功能的企业级开源运维平台,也是目前国内互联网用户中使用最广的监控软件,云智慧遇到的85%以上用户在使用Zabbix做监控解决方案。

  入门容易、上手简单、功能强大并且开源免费是云智慧对Zabbix的最直观评价。Zabbix易于管理和配置,能生成比较漂亮的数据图,其自动发现功能大大减轻日常管理的工作量,丰富的数据采集方式和API接口可以让用户灵活进行数据采集,而分布式系统架构可以支持监控更多的设备。理论上,通过Zabbix提供的插件式架构,可以满足企业的任何需求。

  用户群:85%以上的泛互联网企业。

  优点:

  1. 支持多平台的企业级分布式开源监控软件;

  2. 安装部署简单、管理方便;

  3. 功能强大,监控灵活,可实现复杂多条件告警;

  4. 多种数据采集插件,灵活集成;

  5. 自带画图功能,得到的数据可以绘成图形;

  6. 同时支持调用脚本,很方便;

  7. 提供多种API接口,定制化最高的监控软件;

  8. 出现问题时可自动远程执行命令(需对agent设置执行权限);

  缺点:

  1. 项目批量修改不方便;

  2. 社区虽然成熟,但是中文资料相对较少,服务支持有限;

  3. 入门容易,能实现基础的监控,但是深层次需求需要非常熟悉Zabbix并进行大量的二次定制开发,难度较大;

  4. 系统级别报警设置相对比较多,如果不筛选的话报警邮件会很多;并且自定义的项目报警需要自己设置,过程比较繁琐;

  5. 缺少数据汇总功能,如无法查看一组服务器平均值,需进行二次开发;

  6. 数据报表需要特殊二次开发定义;

  Nagios

  推荐星级:

  Nagios原名NetSaint,是一款开源的企业级监控系统,于1999年推出,由Ethan Galstad开发并维护至今。Nagios能够实现对系统CPU、磁盘、网络等方面参数的基本系统监控,而且还能监控包括SMTP,POP3,HTTP,NNTP等各种基本的服务类型。另外通过安装插件和编写监控脚本,用户可以实现应用监控,并针对大量的监控主机和多个对象部署层次化监控架构。

  Nagios最大的特点是其开发者将Nagios设计成监控的管理中心,尽管其功能是监控服务和主机的,但是他自身并不包括这部分功能代码,所有的监控、告警功能都是由相关插件完成的。

  用户群:全球超过100万用户。许多跨国企业和组织都在使用(西门子、飞利浦、雅虎、索尼、AOL等),尤为适合复杂IT环境的企业。

  优点:

  1. 自动化运维,出错的服务器、应用和设备会自动重启;

  2. 配置灵活,监控项目很多,可以自定义shell脚本,通过分布式监控模式,非常适合大型网络;

  3. 自动日志滚动;

  4. 支持以冗余方式进行主机监控;

  5. 在服务事件和主机事件之间良好的相关性;

  6. 命令重新加载配置文件无需打扰Nagios的运行;

  7. 报警设置多样性;

  缺点:

  1. 很弱的事件控制台;

  2. 对性能、流量等指标的处理不给力;

  3. 看不到历史数据,只能看到报警事件,很难追查故障原因;

  4. 配置复杂,初学者投入的时间、精力比较大;

  5. 插件的易用性不好;

  Ganglia

  推荐星级:

  Ganglia是加州大学伯克利分校发起的一个开源集群监控项目,设计之初是用于监控数以千计的网络节点。Ganglia是一个跨平台可扩展的,高性能计算系统下的分布式监控系统。它已被广泛移植到各种操作系统和处理器架构上,目前世界各地成千上万的集群中应用。

  用户群:适用于服务器集群用户。

  优点:

  1. 适合监控系统性能,通过曲线很容易见到每个节点的工作状态,对合理调整、分配系统资源,提高系统整体性能起到重要作用;

  2. 支持浏览器方式访问,但不能监控节点硬件技术指标;

  3. 适合大型集群环境;

  4. 部署方便,不用逐台机器添加配置;

  5. 一台服务器能够通过不同的分层管理上万台机器;

  6. 可以自定义监控项,监控展示有表格和图像两种,支持手机版。

  缺点:

  1. 没有内置的消息通知系统;

  2. 没有报警机制,出现问题不能够及时报警;原文发布时间为:2017-7-14

本文作者:厂商投稿

原文标题 :运维工具大宝典之开源平台篇

时间: 2025-01-13 12:33:19

运维工具大宝典之开源平台篇的相关文章

MySQL自动化运维工具 Inception

Inception 详细介绍 Inception -- 集审核.执行.备份及生成回滚语句于一身的MySQL自动化运维工具 MySQL语句的审核,在业界都已经基本被认同了,实际上也是对MySQL语句写法的统一化,标准化,而之前的人工审核,针对标准这个问题其实是很 吃力的,标准越多,DBA越累,开发也越累. 那么在这个都追求自动化运维的时代,审核也必须要跟上步伐,因此Inception诞生了.而Inception可以做的工作远不止是一个自动化审核工 具,同时还具备执行,生成对影响数据的回滚语句(类似

基于YARN与Docker实现分布式Web服务的自动化部署运维工具

问题描述 部署运维工具主要有以下需求:-面向服务实例LTS类业务组件,不考虑数据库.缓存等基础组件-实现对这些分布式服务进行自动化部署.启停与伸缩-要能够支持自动部署与固定部署混合-自动部署,不指定主机,不指定端口-服务实例分配允许指定主机范围-固定部署,指定主机与端口,匹配传统需求-服务实例服务注册与查询-服务日志存储日志收集需求-数据存储共享存储需求挂共享存储-其他需求,配置界面与监控界面各位大神有没有实现思路与案例? 解决方案

《Puppet权威指南》——1.3 自动化运维工具对比

1.3 自动化运维工具对比 在1.2节中我们介绍了现在比较常见的自动化配置工具Cfengine.Chef和Puppet,下面再来看一下这3款自动化运维工具的区别,如表1-1所示. 讲到这里,我们已经基本了解了Cfengine.Chef和Puppet这3款自动化运维工具.通过表1-1可知,Puppet的优势还是比较明显的.若是我们去Puppet的官方网站上看一看,会发现很多使用Puppet作为公司自动化运维工具的例子,目前超过18000家公司在使用Puppet软件,其中包括Twitter.Zyng

《Puppet权威指南》——第1章 运维工程师的利器——自动化运维工具

第1章 运维工程师的利器--自动化运维工具 随着网络云时代和大数据时代的到来,运维工程师负责管理的服务器数量也成倍地增长.如何管理好这些服务器为云时代和大数据时代保驾护航,是摆在运维工程师面前的一道难题.而解决这道难题就需要运维工程师对自动化运维工具的掌握达到一定的程度.笔者希望通过本章抛砖引玉,结合自己的经验介绍多年来使用自动化运维工具的心得和体会.本章首先介绍互联网运维工程师的职责.优秀运维工程师和普通运维工程师的区别:然后简要介绍常见的自动化运维工具:最后比较当前常见的自动化运维工具的优势

Linux集群和自动化维3.6 轻量级自动化运维工具Fabric介绍

3.6 轻量级自动化运维工具Fabric介绍 笔者公司目前的数据中心采用的是分布式部署方案,在全球多地都有数据中心.数据中心采用的是AWS EC2机器,在核心的数据中心里,EC2机器的数量比较多,基本上每个数据中心都在运行着几百台AWS EC2机器,而且业务繁忙的时候,会通过AWS AMI(Amazon系统映像)直接上线几十台相同业务的EC2机器,它们的机器类型.系统应用和配置文件基本上都是一模一样的,很多时候需要修改相同的配置文件和执行相同的操作,这个时候为了避免重复性的劳动就需要用到自动化运

Linux自动化运维工具之ansible(一)

运维自动化是运维发展的必然方向,同时也是一个运维工程师实现效率最大化的必然选择. 运维自动化的知识可以说是浩瀚如海,本文将选择其中一个工具ansible为大家介绍一下. 一.哪些工作需要批量部署 1.操作系统的安装 常见的有collber,red hat satelite(redhat)系统专用. 2.操作系统的配置 常见的有cfengine,puppet,chef,func.其中puppet最受欢迎 3.批量程序的部署 4.批量命令的运行查看状态信息 二.ansible介绍 ansible的架

自动化运维工具ansible的使用详细教程_服务器其它

一.ansible简介 1.ansible ansible是新出现的自动化运维工具,基于Python研发.糅合了众多老牌运维工具的优点实现了批量操作系统配置.批量程序的部署.批量运行命令等功能.仅需在管理工作站上安装ansible程序配置被管控主机的IP信息,被管控的主机无客户端.ansible应用程序存在于epel(第三方社区)源,依赖于很多python组件.主要包括: (1).连接插件connection plugins:负责和被监控端实现通信: (2).host inventory:指定操

优云蒋君伟:运维监控大数据的提取与分析

本文内容整理来自[敏捷运维大讲堂]蒋君伟老师的线上直播分享.分别从以下3个维度来分享:1.云时代监控分析的窘境:2.使用标签标记监控数据的维度:3.监控数据应用场景. 云时代监控分析的窘境 在虚拟化与容器技术广泛应用的情况下,运维对象大规模地增长,监控平台每天存储的指标都以亿计,所以监控数据如今已经成了大数据.传统的监控工具在这种场景下,对于数据的提取分析,已经力不从心,反而成为了运维的负担. 我们用一个典型的互联网档案分析应用举例说明: 这个应用支持容灾与负载均衡,它部署在三个数据中心,并同时

linux运维人员必会开源运维工具体系

新手必会用深黄色标记,老鸟必会深黄色+浅蓝色标记 ============================================== 操作系统:Centos,Ubuntu,Redhat,suse,Freebsd 网站服务:nginx,apache,lighttpd,php,tomcat,resin数据   库:MySQL,Mysql-proxy,MariaDB,PostgreSQL DB中间件:MyCat,atlas,cobar,amoeba,MySQL-proxy 代理相关:lvs,