数据中心的敏捷运维之路

随着数据中心的建设规模越来越大,出现了很多大型,特大型的数据中心。这些数据中心往往拥有数万台的服务器规模,再加上互联的网络设备、防火墙、负载均衡等设备,一个大型数据中心需要管理同时运行的几万台设备,并且数据中心的业务仍然在不断变化,几乎天天都要做各种各样的网络变更,同时也不断有设备出现这样那样的故障问题。数据中心规模增加一倍,在运维上面就要增加投入数倍的力量,这样在数据中心不断扩建的过程中,运维的工作已经不堪重负,一味增加运维的投入将严重影响数据中心整体效益,而且大量投入得到的效果并不见得好。在这样的背景下,什么自动化运维、远程运维、智能网管,还有敏捷运维等都纷纷出现了,经过了这几年的技术演进,前几种几乎无人再提及,只有敏捷运维却变得越来越火。如今,每年都有全球敏捷运维峰会,在多个地方举办数次,吸引着诸多数据中心运维技术人员参与。大家发表对数据中心运维的看法,相互学习,促进敏捷运维的完善和发展。

和敏捷运维相比,敏捷开发的概念相信早已被更多人所熟知。敏捷开发是一种以人为核心、迭代、循序渐进的开发方法。在敏捷开发中,软件项目的构建被切分成多个子项目,各个子项目的成果都经过测试,具备可集成和运行的特征。敏捷开发概念从2004年初就开始广为流行了,经过这十几年的发展,在所有的软件开发项目中,都基本引入了敏捷的软件管理理念,这时有人想到了将敏捷设计引入到数据中心运维当中,以便解决当前运维效率低下的问题。敏捷运维的概念来自于两个截然不同的技术阵营。一方面是敏捷开发者发现,虽然产品被很快设计出来,但部署却比较花费时间,手动部署和配置也会引入很多人为错误。此时,敏捷开发团队希望可以自动完成所有重复性的任务,当然也包括部署在内。另一方面来自于一些互联网公司,这些公司业务增长飞快,有时会在两个星期内就要增加上千台服务器,单纯人工的方式完成,耗费了大量人力,运维成本太高,这时他们想到了敏捷设计,希望将敏捷设计应用到运维当中,实现敏捷运维。和敏捷软件开发一样,敏捷运维与传统的数据中心人工运维管理完全不同,敏捷运维完全自律,按照设定好的程序去执行,确保所有一切内容都在控制之内,敏捷运维引入了自动化的东西,抛弃了手动操作。

敏捷运维试图将人们从复杂、繁重的工作中解决出来,通过软件自动化管理,满足数据中心的扩容要求,于是出现了很多敏捷运维的工具,很多人以为只要使用这些工具就是敏捷运维了,实际不是这样的。就像我们拥有了电脑,会使用电脑,但不一定会用电脑完成各种编程,输出很多的功能软件。电脑只是一个工具,我们需要通过给电脑一些指令,才能按照我们的意图完成。在敏捷运维中,软件工具就是这样的角色,必须要我们给予它各种处理业务的能力,它才能自动完成,只要我们设计好了未来数据中心故障、扩容、业务变更遇到的场景,赋予工具自动操作的权利,那么工具就会按照我们设计的程序去自动执行。为工具制定各种各样的自动执行脚本,是敏捷运维的关键,这些脚本关系到敏捷运维的可用性。尤其是在突发事件的处理上,大规模业务扩容上的表现。

敏捷运维给数据中心带来的好处是显而易见的。可以大大减少数据中心在运维方面人力的投入,即使在数据中心规模不断扩大的情况下,使用敏捷运维的工具就可以完成自动化部署,不再需要增加运维人员,只不过在运维工具监控之中增加一些点而已;可以节省运维费用支出,提升数据中心的运营能力;实现业务的快速自动部署,数据中心扩容在手指间就可以轻松完成,运维人员不再需要关心基础架构的实现,只需要在敏捷软件上做业务部署即可,底层资源调配,网络配置等均通过软件实现自动下发,自动互联互通;减少数据中心故障中断时间,甚至可以做到全年无中断,敏捷软件能够在毫秒级的时间内发现异常,并自动执行切换动作,将业务转移到备用系统中,确保业务不受影响,敏捷软件还可以对故障进行自愈,尝试对故障进行隔离,为人员抢修故障设备赢得时间。

敏捷运维听起来很美好。只要嵌入你的代码,确保它在服务器上构建,然后更新一个方法,就可以按照你的思路去完成自动运维。这个说起来容易,实际做起来很难。现有的软件定义数据中心仍处于发展的初级阶段,还没有这样一种软件,可以对整个数据中心设备很好地以控制软件实现,因为数据中心里设备千差万别,相同设备软件版本不同,实现也会有差异,这样从软件上很难统一管理。即便可以管理,那么什么时候执行什么样的指令,敏捷软件工具自己不会去考虑,依然是由你来完成,这样就需要将所有可能出现的场景,业务的走向部署都需要考虑到,并通过软件脚本实现,设计得越充分,敏捷软件工具功能就越强大,当然如果依然出现了未知情况,敏捷运维也会失效。所以针对敏捷运维进行的敏捷开发非常重要,这将在很大程度上决定敏捷运维的效果。

随着数据中心规模不断扩大,业务复杂性越来越高,运维团队面临着严峻的新挑战,不仅要以更快的速度,在更动态的环境中部署更多创新性的服务,同时还要始终确保用户的满意度。如何用好敏捷运维,已经成为当下数据中心最迫切需要掌握及推进的革新技能。

本文转自d1net(原创)

时间: 2024-11-10 01:26:40

数据中心的敏捷运维之路的相关文章

云计算如何改变数据中心的设计运维成本

文章讲的是云计算如何改变数据中心的设计运维成本,随着数据中心向云技术的靠拢,低成本.大规模的运行环境已经成为不可阻挡的历史走向.而那些陈旧的设计与经济模式则逐渐淡出了人们的视野. 虽然许多人认为比起云计算带来的成本优势,提高资源池利用率及快速反应能力可以带来更明显的回报.不过我们仍然坚信以规模.效益以及商业流程为核心内容的数据中心二次规划,才是能够带来根本性转变的不二法门. 换句话来说,前者的成本优势(充分利用现有资源等)依赖于对现有数据中心设计模式的高效调动;而后者则通过转化创造出全新的设计模

大型数据中心如何做运维管理?

摘要:在云大行其道的今天,随着数据中心建设规模的不断扩大,新技术的层出不穷,数据中心变得越来越复杂.大型数据中心往往是由很多规模庞大的集群系统组成,其运维工作需要具备方方面面的知识,包括硬件.网络.服务器.存储.安全以及业务上的东西,需要上下打通地去做运维工作. 当一个数据中心的规模非常大,面临的挑战和问题也比较超前,很多在小环境小体系下不是问题的问题在这样的规模下也就凸显出来了,所以要做好大型数据中心的运维工作,对整个数据中心技术体系的系统学习就要花费比较长的时间,只有对这个数据中心整体非常了

优云敏捷运维分享之:业务场景驱动的服务型CMDB

最近这几年,国内外CMDB失败的案例比比皆是,成功的寥寥可数,有人质疑CMDB is dead?但各种业务场景表明,当下数据中心运维,CMDB依然是不可或缺的一部分,它承载着运维的基础,掌握运维的命脉. 分析以往失败的案例,静静的想一想,失败无非两点: 一.CMDB自身建设能力不够,无法适应当下数据中心和云环境的新形势.当下数据中心的特点是敏捷.动态.持续发展.甚至当风暴来临时,数据中心的环境是瞬息万变.传统型CMDB跟不上节奏,只能望洋兴叹,频繁应付处理各式各样的问题. 二.非场景驱动,无法支

Gdevops精彩不落幕,敏捷运维盛会圆满收官!(附PPT)

继杭州首站的盛大起航,北京.广州两站的持续升温,贯穿全年的"2016年全球敏捷运维峰会"于11月18日在上海圆满收官!这场意义非凡的收官盛会,特别设置了一个主会场和两个分会场,在总结目前IT运维转型困局与突破的同时,对未来敏捷.运维.云等技术领域的发展与革新指明了方向.   与此同时,万众瞩目的十大MVP评选也在峰会现场举行了隆重的颁奖仪式,本年度为技术圈作出非凡贡献的专家及团队悉数登台,星光璀璨,为2016年的Gdevops峰会画上圆满句点.   无论你错没错过这场收官盛会,这些现场

Gdevops全球敏捷运维峰会起航成都!

带着一众IT人的期许与寄望,今年的Gdevops峰会将于5月13日在成都拉开序幕!本次峰会由上海市经济和信息化委员会指导,上海市云计算产业促进中心.DBAplus社群主办,中生代技术.新炬网络.Linux中国联合主办.峰会顺应行业发展最新态势,特别设置了诸多专题,涵盖敏捷运维.自动化运维.数据库.云等领域. 一. 峰会亮点 DBAplus社群品牌峰会首度登陆成都,打造行业年度最高规格.最大规模盛会,造福西部小伙伴!覆盖敏捷运维.自动化运维.数据库.云.大数据等业界最受关注的干货议题! 前瞻:英国

数据中心网络操作的可视化之路

众所周知,数据中心网络设备都是采用的命令行操作界面(CLI),这种方式需要操作者有着非常专业的技术知识才能使用,而不像Windows可视化的系统,交互界面友好,操作方便.网络设备从以太网技术出现发展到现在几十年,却从来没有真正实现图形化的界面,原因何在呢?本文将带领大家去探求数据中心网络设备操作的可视化之路.PC诞生之初也是采用的命令行操作界面,随着图形化技术的发展,CPU.内存.显卡等部件处理能力的提升,可视化的操作界面成为PC的主流,尤其是Windows系统.Linux系统则两者兼具,以命令

有赞MySQL自动化运维之路—ZanDB

一.前言 在互联网时代,业务规模常常出现爆发式的增长.快速的实例交付,数据库优化以及备份管理等任务都对DBA产生了更高的要求,单纯的凭借记忆力去管理那几十套DB已经不再适用.那么如何去批量管理这些实例的备份.元数据.定时脚本和快速实例交付就成了急需解决的的问题. 二.数据库的标准化 在实现MySQL的自动化运维的过程中,最痛苦的无非是目录的不统一,配置文件的混乱以及DB主机的不标准,而这些不标准的环境会让自动化运维的路途荆棘重重.所以首先我们将相应的DB主机以及目录做了标准化,将以前不符合的标准

数据中心智能化运维之路

在新技术层出不穷的今天,数据中心运维工作总是得不到足够的重视.数据中心在不出任何问题的情况下,对运维的工作是持默认态度的,但如果出了一系列问题,付出的工作可能毁于一旦,工作的绩效有点要拼人品的味道.其实,正如那句话所说的"古罗马不是一天建成的"那样,数据中心发生了故障,甚至是致命的故障,很多时候并不是突然就发生的,是平时工作的长期忽视才最终酿成了悲剧.如何做运维才能体现出工作的价值,如何做运维才能降低数据中心出现故障的风险,在这样的需求背景下,智能化运维应运而生. 数据中心运维工作主要

阿里云大数据计算平台的自动化、精细化运维之路

免费开通大数据服务:https://www.aliyun.com/product/odps 作者简介:   范伦挺 阿里巴巴 基础架构事业群-技术专家 花名萧一,2010年加入阿里巴巴,现任阿里巴巴集团大数据计算平台运维负责人.团队主要负责阿里巴巴各类离在线大数据计算平台(如MaxCompute.AnalyticDB.StreamCompute等)的运维.架构优化及容量管理等 1.前言 本文主要会从以下四个方面来写,分别是: 阿里大规模计算平台运维面临的一些挑战: 阿里自动化平台建设: 数据精细