优云云监控:先定一个运维小目标,比方监控它10000台主机

“想做世界最好是对的,但是最好先定一个能达到的小目标,比方说我先挣它一个亿。”,王首富云淡风轻地给各行各业提供了一个很好的Roadmap,包括我们运维。的确,如今数据中心的规模增长速度也已像一匹脱缰的野马,各地都频频建设起超大型数据中心。按工信部的定义,超大型是指规模大于等于一万个标准机架的数据中心,考虑到虚拟化技术的使用,实际上需要运维的主机规模很容易超过十万的级别。所以,首富说的目标离我们也不远,也许很快就可以达到。

而如此大规模的数据,其运维的难度可想而知,我们来逐个分析应对看看:

挑战一:如何把监控配置等运维工作降低到零?

通常情况下,每一个主机或虚拟机的点亮,运维人员都需要为新主机完成配套的运维工作,包括系统部署、IP地址分配、应用部署与监控配置等等。尤其在使用虚拟机技术的数据中心,据调查,目前虚拟机的平均生存时间只有15天,因此其配套的运维工作变得更加繁重。将这些例行的配套工作自动化,可以有效降低运维工作。

在这个问题域中,我们设想有这样一种代理程序,它易于安装、启动后可自动采集本机信息上报、同时开始监控各项重要的指标。那么我们就很容易,将代理程序作为主机系统部署的一部份,同时预置到虚拟机镜像中,那么每点亮一个主机,在监控中心就可以立即发现与监控它,这能有效消除监控配置运维工作。

这样后续新增主机的流程如下,需要运维工作投入仅仅在开机部份,其余过程可全部自动化:

挑战二:如何设计监控数据传输网络,低成本支持海量数据?

对于10万主机的规模,以及目前数据中心秒级的监控需求,其监控数据显然会成为一个大数据。一个主机上报监控数据产生了0.5KB/s的流量,那么10万主机,每时每刻都产生50MB/s的总流量,这当然是无法接受的。

答案是引入采集数据传输中间层,通过中间层有以下优势:

1.合并上报TCP连接,减轻监控服务端的连接压力

2.集中数据压缩上报,并减少传递的数据大小

挑战三:如何对接各类系统,实现大规模监控数据集中化?

数据中心的监控运维不仅仅针对主机,还会有机房环境、业务应用、存储系统等各类系统,这些系统可能也已有各自的监控工具,但运维需要避免工具的碎片化,为运维人员提供统一的监控平台。因此监控系统应当非常容易扩展监控资源与监控指标,让运维人员可以仅用一条命令,就可以提交监测资源与指标,以便随时通过各类Shell扩展监控能力。

具体要求包括:

1.支持http或udp提交接口

2.简洁的数据格式要求

3.不要求预先在平台中定义资源或指标信息

这种方式,运维人员即可使用shell粘合curl命令,快速对接各类系统:

挑战四:如何可视化上万个主机的性能状况?

由于超大型数据中心的主机资源已经达到万级,因此传统的一些TopN报表或多维度分析表格,其显示的数据样本少,缺少交互式的数据分析工具,无法直观的表现数据中心的整体性能情况,也难以分析负荷的瓶颈。

应对这样规模的资源展现,我们需要使用一些大数据的可视化技术:

1.用反应主机负荷的图形元素,在进行宏观的主机展现:

2.通过机房、系统、使用部门等等不同的维度进行切换,洞悉负荷高压区域:

总结

如今在监控领域,已经有很多传统的监控工具,也包括各类开源的监控系统如Zabbix、Nagios等,但如果需要满足万级主机监控,还是有很多的运维平台研发的工作需要落实。而优云Monitor,本身就已充分考虑大规模的监控体量,它的设计中包含了以下特性:

1.通过一键安装快速实现大规模自动化部署,降低监控的运维附加工作量

2.通过代理级联应对各类隔离网络环境与多数据中心,并对网络负荷零影响

3.通过OpenAPI快速实现监控平台的集成

4.多视角切换观察,随意纵览万级主机数据中心

5.可随数据中心规模增长而进一步水平扩展,随时扩大监控规模

相信优云Monitor作为面向混和云架构的下一代云监控产品,可以帮助大家早日实现运维小目标。

关于优云

优云(www.uyun.cn)是专业的全栈运维服务平台,秉承devops的理念,从监控、到应用体验,到自动化持续交付。优云的运维产品是目前行业内最全面的,能提供整套的运维解决方案,帮助用户赢得业务的持续成功,是广大用户一直信赖的伙伴。

作者简介:

蒋君伟

IT运维领域资深专家,优云软件产品总监,拥有10年运维实战经验;

先后研发了网络管理、系统管理、CMDB、ITSM等产品,并成功建设了多个全国性的网络运维管理项目;

其主导研发的产品广泛应用于海关、税务、公安、社保、银行、保险、能源等20多个行业。

活动期:现到2016年12月31日前免费使用,欢迎详询:https://www.uyun.cn

更多运维技术文章请关注优云官方微信(broada_ops)

时间: 2024-10-07 13:17:02

优云云监控:先定一个运维小目标,比方监控它10000台主机的相关文章

2016年新运维:优云论《普通运维人员就是秋后的蚂蚱》

2015年第一天,51CTO博主alex曾发表了<普通的运维人员就是秋后的蚂蚱>的博文,为广大的运维界同仁们敲响了警钟.文章主要从资源集中化和高度自动化两个行业大趋势出发,断言普通的运维人员已经走在了被淘汰的路上,IT自动化必将砸掉大多数不思进取的运维人员的饭碗,寿终正寝只是时间问题. ​敏捷运营要求BizDevOps一体化 博文中提到的资源集中化,可以理解为云计算.2008年谷歌率先提出了云的概念,它将传统的IT计算能力形成资源池,进行弹性配置并对外提供按需服务,具体表现为服务化和平台化.

运维小知识之nginx---CentOS6.5安装nginx配置nginx sticky

运维小知识之nginx---CentOS6.5安装nginx配置nginx sticky            背景          今天经理在系统中使用nginx配置负载均衡,笔者想项目目前就一个服务器有必要吗?"以后会拓展的!",我能怎么办,反正在他眼里这些加上一个负载均衡又不花时间,这篇文章笔者主要是写如何在CentOS下安装nginx以及为了解决session共享问题而在nginx中添加的sticky.            一.安装准备            首先由于ngi

运维小知识之nginx---nginx配置Jboss集群负载均衡

运维小知识之nginx---nginx配置Jboss集群负载均衡            背景          紧接着上一篇博客<运维小知识---CentOS6.5安装nginx配置nginx sticky>安装完成之后剩下的工作就是配置了,其实如果我们想要去做负载均衡session共享是一个绕不过去的问题,而解决session共享的方法有很多,我这里介绍的事使用nginx sticky,方便易用.            具体配置          由于目前的项目中会出现什么情况还不清楚,所以

运维小知识之nginx---..nginx-sticky-module-1.1ngx_http_sticky_misc.cIn function ‘ngx_http_sticky_misc_text_

运维小知识之nginx---..nginx-sticky-module-1.1ngx_http_sticky_misc.cIn function 'ngx_http_sticky_misc_text_raw            背景          今天笔者在使用nginx做负载均衡的过程中遇到了一个问题,如何解决session共享的问题,稍一查找发现解决办法不少,笔者使用的是nginx的一直扩展模块(安装和配置已经在前两篇博客有简单的介绍)在安装的过程中居然出现了问题,咱也不是逃避的人,解

【转载】作为一个运维,我怎么看Docker?

转载自:http://weibo.com/p/1001603839871499289201 最近Docker非常火,以至于和圈里朋友聊天的时候,如果不提Docker,都不好意思打招呼.于是就补习了下Docker的基本知识:<Docker入门与实践>.有了个大致的感觉. 有个云计算的产品经理问我,你对Docker怎么看?我的回答是:很不错,但是现阶段还不成熟,我不看好.总体来说,对开发很友好,对运维是个灾难.我不知道那些鼓吹Docker具有优秀"可运维性"的人,是否真正做过D

运维小知识---后台运行Jboss

运维小知识---后台运行Jboss            最近由于项目原因开始接触Linux,这两天项目注册测试,发现搭好的测试环境之后出了点小问题.                   问题描述          每次远程使用命令shstandalone.sh启动Jboss,发布好的网站能够正常访问,而当我关闭远程会话窗口的时候页面就无法访问了.          重现问题          使用SecureCRT登录Linux服务器使用命令进入Jboss下面的bin文件夹 cd /usr/l

运维改革探索(一):用多层级监控实现可视化运维

作者介绍 朱祥磊,山东移动BOSS系统架构师,负责业务支撑系统架构规划和建设.获国家级创新奖1项.通信行业级科技进步奖2项.移动集团级业务服务创新奖3项,申请发明专利13项. 一.背景 当前运营商业务支撑系统正向云化发展,以某移动公司为例,近年先后进行了经分系统云化.大数据系统建设.BOSS云化,现正在进行CRM云化,同时构建企业级资源池.经过几年的探索,深刻感受到云化给业务支撑系统带来高效低成本的优点,但同时也对运维能力带来了更高的要求,针对传统架构下的运维管理模式已经越来越不适合云化下的要求

云端运维,回事下一个运维时代吗?

在近期我们发布的"聚能聊"话题中,小伙伴们就云端运维侃侃而谈,表达了大家的看法,不乏点睛妙笔. 以下为较精彩的言论,与大家进行分享,同时也会就运维这一话题继续进行深入讨论. (排名不分先后) szm.:"一件普通的事物,当它有了一个高大上的名字,就会有不同的反响,云,便是这么一个事物,几十年前的分布式,如今的云,都是在将资源最大化利用,原来一台服务器可以开10台虚拟机,分布式就可以2台开21台,当数量足够大,就会发现,原来,这样用利用率更高呢!再说运维,可能很多人都缺乏安全感

优云丨2017全球运维大会上海站纪实

2017全球运维大会上海站于2017年11月20日-21日在上海光大会展酒店隆重举办,汇聚国内一线运维专家和诸多运维同仁达600余名.作为长期致力于企业级高端运维市场软件开发和咨询服务的优云软件受邀参与本次运维界的盛会.  ▲大会现场 ▲参会嘉宾在优云展台前咨询交流 ▲参会嘉宾在优云展台前咨询交流 本次运维大会,一共来了12家运维行业上下游厂商,有金山云.腾讯云.Ucloud等,但优云依然能够在12家公司里脱颖而出,吸引众多参会嘉宾的目光与注意力.与市面上其他同类产品相比,优云主要有以下5点优势