数据中心智能化运维之路

在新技术层出不穷的今天,数据中心运维工作总是得不到足够的重视。数据中心在不出任何问题的情况下,对运维的工作是持默认态度的,但如果出了一系列问题,付出的工作可能毁于一旦,工作的绩效有点要拼人品的味道。其实,正如那句话所说的“古罗马不是一天建成的”那样,数据中心发生了故障,甚至是致命的故障,很多时候并不是突然就发生的,是平时工作的长期忽视才最终酿成了悲剧。如何做运维才能体现出工作的价值,如何做运维才能降低数据中心出现故障的风险,在这样的需求背景下,智能化运维应运而生。

数据中心运维工作主要包括配置管理和监控,运维人员每天都要进行大量的模块维护操作。运维的操作设计程序更新、配置修改、数据传输以及各种自定义的命令执行。在运维过程中,这些大多是通过手工操作或编写脚本的方式,将模块更新到生产环境中,手工操作不可避免的会带来误操作,效率低下,甚至出现过模块上线操作排队的现象。另一方面对数据中心运行的监控,数据中心里运行着成千上万台的各种设备,经常会出现这样那样的问题,要等到故障反映到业务层面,那实际上已经造成了损失,所以在严重故障发生之前,如果能够发现一些设备运行的异常表现,及时消除就可以减少故障对数据中心的影响,对数据中心进行监控就是将危险消灭在摇篮之中。然而数据中心里的设备、应用程序、组网包含很多小系统,非常复杂,如果靠人去检查,不仅效率低还容易漏掉,而通过智能化运维就可以通过机器去检查所有运行的设备,并且对这些运行的设备进行监控,发现隐患及时告警,当运维收到这些告警时,再采取行动。智能化运维不仅将运维人员从繁琐的工作中解放出来,而且还大大提升了运维工作的效率,是未来数据中心运维发展的主要方向。所谓的智能化运维,在这里给下个定义,就是用机器来代替运维人员,在最少人工干预下,结合运用脚本与第三方工具,保证业务7*24小时高效稳定运行,这也是所有数据中心运维工作的终极目标。

随着数据中心规模越来越大,通过人工的方式做数据中心运行几乎不可能,这使得智能化运维得到了很快发展,也出现了很多智能化运维的软件。比如:监控系统用nagios,流量监控用cacit,集群监控用ganglia,ping监控用ipmonitor或xping,配置管理用puppet等等,这些软件都是开源的,可以根据自己数据中心的业务特点进行修改,形成自己的运维工具。一个智能化的运维工具要想覆盖到所有的设备,所有可能出现的风险,是一件非常困难的事情,因为数据中心涉及的设备和技术实在太多了,并且这些技术还在不断地更新着。数据中心对运维的要求是:事前预警:在故障出现之前,管理人员应该能在任何时间,任何地点接收到告警信息,并及时处理问题,把故障隐患扼杀在摇篮中;事中恢复:天有不测风云,即使是再完美的方案也可能有预料之外的故障,为保证在最短时间内恢复业务,关键数据不因故障丢失,我们需要有完整备份方案来应对自如;事后存档,以便吸取教训,避免故障二次发生。要实现这样的运维要求,可不是一件容易的事情。这需要一个经验丰富且高效的运维服务团队来完成。随着我们的业务系统不断增加,业务量的不断上升,成熟的运维服务基本会借助第三方工具,高效的进行软件的部署与运维。

智能化运维要做到事前预警,事中恢复,事后存档,实际上是要有大量的工作要完成。首先,要对重要的设备实施主动式监控,如路由器、交换机、防火墙等。当这些设备在运行过程中出现告警时,要及时通知到运维人员,对于一些简单的告警智能化工具可以自行处理并修复,直接将处理结果反馈给运维人员即可。其次,新业务部署或配置变更检测也要做到自动化。新业务部署时涉及很多设备和应用程序的调整,这个涉及大量的人工操作要有智能化工具来代替,还有各种设备的配置参数若发生变化,也将触发变更流程转给相关运维人员进行确认,通过自动检测协助运维人员发现和维护配置。第三,维护事件提醒自动化,通过对设备和应用活动的时时监控,当发生异常事件时系统自动启动报警和响应机制,第一时间通知相关运维责任人,以便采取进一步行动。第四,系统健康检测自动化。定期自动地对设备硬件和应用系统进行健康巡检,配合运维服务团队实施对系统的健康检查和监控,及时发现系统级的运行风险。最后,维护报告生成自动化,定期自动地对系统做日志的收集分析,记录系统运行状况,并通过阶段性的监控、分析和总结,定时提供运维服务的可用性、性能、系统资源利用状况分析报告,以便数据中心可以根据运行情况,进行下一个阶段的投资。实际上,已经有不少的公司看到了数据中心运维的市场机会,推出了一些智能化工具,不过由于每个数据中心都有自身的特点,不少工具并不适用,需要大量的修改,真正能够给数据中心运维带来革命性改革的工具还没有看到,因为智能化运维还有很长的路要走。

在可预见的未来,运维的角色将变得越来越重要,数据中心的运维工作也将越来越繁重。智能化运维不仅能满足我们对数据中心运维的要求,解放生产力,还能使我们的运维管理更加规范化,标准化,从而真正意义上的实现智能化运行。

作者:何妍 

来源:51CTO

时间: 2024-10-27 06:22:07

数据中心智能化运维之路的相关文章

【博文推荐】如何做好大型数据中心的运维

什么叫数据中心?维基百科给出的定义是"数据中心是一整套复杂的设施.它不仅仅包括计算机系统和其它与之配套的设备(例如通信和存储系统),还包含冗余的数据通信连接.环境控制设备.监控设备以及各种安全装置".在云大行其道的今天,随着数据中心建设规模的不断扩大,新技术的层出不穷,数据中心变得越来越复杂.大型数据中心往往是由很多功能不一的单元系统组成,其运维工作需要具备方方面面的知识,包括硬件.网络.服务器.存储.安全以及业务上的东西,需要一体化联动地去做好运维工作. 当一个数据中心的规模非常大,

数据中心网络运维一指禅

数据中心网络如何高效运维?这个问题经常困扰着数据中心的运维技术人员,运维技术人员疲于处理各种网络故障.变更.检查等事物,没有时间学习新技术,网络运维技术人员的工作往往做得非常辛苦,经常加班加点处理,然而问题似乎越是解决反而越多,陷于一个恶性循环,运维的人员不停地加班,问题不断出现,不断被解决,似乎永远都有处理不完的事情.实际上,网络运维也是一门学问,已经演化成为一门技术学科.有些人整天忙于处理这样那样的问题,但是数据中心网络依然问题不断,而有的人似乎整天也没有很多事情,数据中心业务有条不紊地进行

如何做好大型数据中心的运维

什么叫数据中心?维基百科给出的定义是"数据中心是一整套复杂的设施.它不仅仅包括计算机系统和其它与之配套的设备(例如通信和存储系统),还包含冗余的数据通信连接.环境控制设备.监控设备以及各种安全装置".在云大行其道的今天,随着数据中心建设规模的不断扩大,新技术的层出不穷,数据中心变得越来越复杂.大型数据中心往往是由很多功能不一的单元系统组成,其运维工作需要具备方方面面的知识,包括硬件.网络.服务器.存储.安全以及业务上的东西,需要一体化联动地去做好运维工作. 当一个数据中心的规模非常大,

如何做好大型数据中心的运维工作?

随着数据中心建设规模的不断扩大,新技术的层出不穷,数据中心变得越来越复杂.大型数据中心往往是由很多规模庞大的集群系统组成,其运维工作需要具备方方面面的知识,包括硬件.网络.服务器.存储.安全以及业务上的东西,需要上下打通地去做运维工作. 当一个数据中心的规模非常大,面临的挑战和问题也比较超前,很多在小环境小体系下不是问题的问题在这样的规模下也就凸显出来了,所以要做好大型数据中心的运维工作,对整个数据中心技术体系的系统学习就要花费比较长的时间,只有对这个数据中心整体非常了解,才能有针对性地制定一些

云数据中心网络运维的苦与乐

前几年大家讲 SDN 比较多的是怎样利用控制器,像 OpenDayLight.ONOS 这些东西,其实在讲怎样做一个 Driver.怎样做控制.大概从去年开始,SDN 开始跨入应用的时代,现在大家更多地在讲实际要做的事情.应用场景是什么.由于大家对 SDN 有多种不同的理解,在本文中我想把话题聚焦一下,落到云数据中心的网络运维这个点上,分享一些运维中的实际例子.没有大的篇章,只说说我们遇到的那些苦与乐. 因为本文话题的场景是云数据中心,所以我们有必要先看一下云数据中心里面的网络是什么样子. 简单

云时代如何简化数据中心网络运维?

SDN,在经历了犹豫彷徨.百家争鸣之后,目前已成为企业CTO的坚定选择. SDN时代的网络展现出两面性:一方面让客户使用更加简单,另一方面却让运维更加复杂.而当前,整个行业的目光多聚焦在前者而忽略了后者. 随着SDN的部署如火如荼,一丝忧患也隐隐浮现.2015年12月,管理行业研究机构EMA(Enterprise Management Associates)针对100多家企业的调查结果显示:70%左右的客户对于现有管理运维体系是否适用于SDN场景表示担忧.Gartner于 2015年7月发布的通

数据中心的敏捷运维之路

随着数据中心的建设规模越来越大,出现了很多大型,特大型的数据中心.这些数据中心往往拥有数万台的服务器规模,再加上互联的网络设备.防火墙.负载均衡等设备,一个大型数据中心需要管理同时运行的几万台设备,并且数据中心的业务仍然在不断变化,几乎天天都要做各种各样的网络变更,同时也不断有设备出现这样那样的故障问题.数据中心规模增加一倍,在运维上面就要增加投入数倍的力量,这样在数据中心不断扩建的过程中,运维的工作已经不堪重负,一味增加运维的投入将严重影响数据中心整体效益,而且大量投入得到的效果并不见得好.在

应对大数据时代需求推进数据中心智能化

在"绿色数据中心建设"分论坛上,华为网络能源产品线副总裁何波提出,推进ICT技术与传统电子技术相融合,要秉持简答.可靠.高效.智能化理念,进一步加大对网络能源领域尤其是数据中心基础领域建设. 何波说,当代信息化浪潮席卷全球,互联网迈上一个新台阶,万物互联的时代已经到来.数据中心作为大数据的载体,是大数据时代最重要的基础设施,整个通信信息网络将走向围绕大数据的ICT融合化,全面云化. 何波说,大数据的来临,通信网络运营商等都在积极转型,对数据中心提出更高要求,这就需要推进ICT技术与传统

阿里云大数据计算平台的自动化、精细化运维之路

免费开通大数据服务:https://www.aliyun.com/product/odps 作者简介:   范伦挺 阿里巴巴 基础架构事业群-技术专家 花名萧一,2010年加入阿里巴巴,现任阿里巴巴集团大数据计算平台运维负责人.团队主要负责阿里巴巴各类离在线大数据计算平台(如MaxCompute.AnalyticDB.StreamCompute等)的运维.架构优化及容量管理等 1.前言 本文主要会从以下四个方面来写,分别是: 阿里大规模计算平台运维面临的一些挑战: 阿里自动化平台建设: 数据精细