高效数据中心运维团队的7个习惯

何运行一个庞杂的机房,进行无数的主动和被动的操作,同时避免错误导致的数据中心故障?

  1. 以终为始

以终为始是一种以结果为导向的思维方式,提示人们在做事情前要先明确做事情的最终目的,也就是“不忘初心,方得始终”。数据中心的终极目标是支持业务系统的不间断运行。在接手一个数据中心的运维任务之前,我们首先需要明确业务连续性目标,然后才能制定相应的运维策略。

  1. 以人为本

70%的数据中心故障是由人为造成的。与此同时,即使有最先进的监控系统,数据中心内无论主动保养操作,还是应急反应,都还需要依赖于人员的最终决策和操作。所以,配备足够的人员、有责任心、经验丰富的人员、对于数据中心的安全运行至关重要。

  1. 培训与学习

学习是一种修炼。有一种说法“最好的运维团队只不过是犯了足够的错误就修炼出来的”。数据中心基础设施牵涉到电力、暖通、弱电、消防、建筑等诸多专业,对于数据中心运维团队来说,需要学习的专业知识非常多。同时,每一个数据中心的配置和特定的操作流程都不完全相同。因此,培训与学习应该成为运维团队管理的一个重要组成部门。

  1. 建立管理体系

数据中心基础设施的运维管理工作的管理对象包括整个庞大的基础设施、运维团队、服务对象(IT部门或者IDC客户),是一项系统性很强的工作,需要建立起一个管理体系。在整个管理体系中最重要的三个方面是设备保养体系、与所有相关部门的沟通机制、以及支持整个数据中心生命周期管理的财务预算体系。

  1. 规范操作流程

任何规范化的企业管理,都不可避免地需要引入流程,数据中心运维管理也不例外。完全基于个人经验和判断的操作,往往隐藏着重大的故障风险。数据中心就是要强化流程管理。任何重要的操作,必须严格按照流程执行。建立流程文化是数据中心规范化管理的一个重要环节。数据中心最重要的三类流程是标准操作流程(SOP),维护保养操作流程(MOP),和应急相应流程(EOP)。

  1. 动态管控

除了之前提到的管理体系和操作流程这些相对静态的工作以外,数据中心还需要进行动态的管控。近几年,IT负载的动态性表现得越来越明显。一方面,IT设备的增加速度比较快。新的业务系统上线可能导致IT负载在短期内有较大的增加。另一方面,企业大量采用虚拟化技术以后,可能会出现机房内各机柜的IT负载在一天范围内有较大变化的情况。基础设施运维团队需要针对这种IT负载的动态性作出相应的对策。

  1. 持续改善

大型数据中心的出现只是近几年的事情。当数据中心超过一定规模的时候,管理变得复杂,已经超越原来简单的依赖于少数运维人员的责任心的时代,需要的是完整的管理思想和方法论。国内数据中心基础设施运维体系的成熟度大致处于三个等级的状态:基础级、成长级、文化级。

本文转自d1net(转载)

时间: 2024-12-09 02:11:03

高效数据中心运维团队的7个习惯的相关文章

数据中心运维需要的三大认证

数据中心的好与差需要有个衡量的标准,这可不是靠"老王卖瓜自卖自夸"就可以了.所以随着数据中心行业发展的成熟,出现了一些第三方的数据中心认证标准,这些标准按照自己的评价标准对世界各地的数据中心进行评估,得出评级.很多数据中心参与到这些认证中来,主要还是要提升自己的知名度,以便吸引更多的客户将业务放到自己的数据中心来.同时,这些第三方评估机构随着评估水平的高低,受认可程度也不同.数据中心领域其实并不缺少标准,包括国际标准.行业标准以及国际标准有很多,但是这些标准并不完全统一,而且有的标准更

数据中心运维从零开始

运维是数据中心里最为重要的工作部分,不过如果和朋友说起自己是干运维的,总会让人听起来感觉有点低级,很多人会想到专科技校.蓝翔电脑培训出来的都是搞这个的.不错,数据中心运维也需要大量这方面的初级人才,完成一些基本的重复性的操作类运维工作,但这只是运维很小的一部分内容.希尔顿是开饭店的,路边也有很多开饭店的,而人家希尔顿开的是五星级酒店,而且是在全球各地开,同样是开饭店的,却有大不同,没有任何可比性.所以,不要一对别人说自己是搞运维的,就觉得比搞金融.互联网.计算机的低一等,运维的工作里也有做得高大

ITIL在数据中心运维中的应用

随着数据中心建设规模越来越大,运维的工作变得十分重要.运维的工作效率与好坏在一定程度上决定了数据中心的整体水平.数据中心运维工作涉及两大方面:一是确保数据中心的稳定性而对数据中心各个环节进行维护;二是当数据中心内出现问题时,能够及时定位并且解决,以缩短故障时间.前一个是基础,后一个是关键.这就像当兵打仗,俗话说"养兵千日,用在一时",平时对数据中心各个方面进行了精心的检查和熟悉,对整个数据中心状况了如指掌,那在数据中心发生故障时,才能迅速找到痛点,明确故障原因,并采取恢复措施.一个数据

数据中心运维工程师必备技能

运维的工作是数据中心里最为重要的一部分工作,在整个数据中心的生命周期里,持续时间最长,拥有一批高水平的运维工程师是数据中心长期稳定运行的法宝.虽然数据中心的运行故障不可避免,但通过有效运维,可以大幅降低故障发生的频率,并在出现故障的时能够有效及时地恢复业务.在这些过程中,运维工程师的水平起到了至关重要的作用.作为数据中心里的一名运维工程师,应该掌握哪些技能,才能在工作中游刃有余.要知道数据中心里有很多设备,而作为一名运维工程师不可能,也没有必要全部掌握,要懂得应该掌握哪些技能,一些基本命令和重要

北京供销大数据集团探索数据中心运维“新趋势”

<企业网D1Net>3月31日(北京) 近日,以"突破·重塑"为主题的2017年数据中心设施论坛(北京站)在北京万达索菲特酒店召开.本次大会由中国互联网协会数据中心运营工作组主办,聚焦数据中心行业热点话题,旨在为数据中心从业人员带来国内外领先的技术理念和最佳实践.其中,运维管理,是决定数据中心项目成功与否的关键要素,也成为本次参会者关注热点.作为国内大数据基础平台的领军企业,北京供销大数据集团(简称"SinoBBD")受邀参加此次大会.集团IDC事业部机

优云软件叶帅:“互联网+”时代的云数据中心运维思辨(二)

2017中国开源产业峰会暨中国国际软件博览会分论坛,优云软件叶帅在开源云计算技术创新论坛发表了<"互联网+"时代的云数据中心运维思辨>的主题演讲,本文根据演讲内容整理而成. 无论是稳态还是敏态,大家关注的内容最终的目标并不会发生变化,最终的目标都是保证当前的数据.业务或者用户能够得到一个比较好的系统体验,是不是说随着云环境或者容器对象的引入,当前的IT对象或者IT服务就能够得到持续的比较好的体验呢?其实往往不是这样的. 随着业务系统或者整个IT架构发生一个复杂的变化,要管理

简述数据中心运维知识体系架构

数据中心要正常运转,离不开大量的运维工作.运维的工作需要很多专业技术人才,要做好数据中心的运维需要掌握多学科.多门类的专业技能,运维的工作不强调人才对一门技术有多专.有深度,但要有广度.出于成本的考虑,数据中心不可能聘入所有专业知识领域的人才,需要的是通用人才.如何才能成为一名优秀的数据中心运维专家呢?本文就来说一说运维工作所需的知识体系架构,根据这个知识体系架构,对自己弱势的部分有针对性地学习,很快就能成为一名数据中心运维专家. 数据中心运维知识可以分为三大部分:运维技术.测试和开发和运维管理

数据中心运维人的中年危机

数据中心属于年轻人的行业,紧随科技前进的步伐,在数据中心里从事技术运维的人普遍年龄较轻,一般在30岁以下,尤其是一些技术操作人员都很年轻,这是由这个行业的发展特点所决定的.数据中心里技术更新换代很快,很多人跟随不上这样的节凑慢慢也就被淘汰了,还有一些就是仅掌握了初级操作水平的人员,这些工作替代性强,新手往往几个月就可以上手,这样的工作自然不需要经验丰富的老员工,与其为老员工支付高工资,不如用年轻员工,这样人力成本大为降低,工作基本也不会受到影响.在富士康的经营中,我们看到其永远都处于缺人,不断招

数据中心运维——消防安全“四个能力”

数据中心建筑不仅仅包括计算机系统和其它与之配套的设备,还包含冗余的数据通信线路.环境控制设备.监控设备以及各种安全装置,作为数据中心运维管理人员更应熟练掌握"四个能力". 数据中心建筑不仅仅包括计算机系统和其它与之配套的设备,还包含冗余的数据通信线路.环境控制设备.监控设备以及各种安全装置,作为数据中心运维管理人员更应熟练掌握"四个能力".消防安全"四个能力"是公安部构筑社会消防安全"防火墙"工程提出的,即: 1.提高社会单位