运维好数据中心的四大法宝

对于数据中心,运维工作的重要性不言而喻,在数据中心生命周期中运维管理是历时时间最长的一个阶段。数据中心运维的工作主要是对数据中心各项管理对象进行系统的计划、组织、协调与控制,是信息系统服务有关各项管理工作的总称,具体包括对机房环境基础设施部分的维护,系统与数据维护,管理工具的使用,人员的管理等方面。投资巨大的数据中心,为了能够尽快得到收益,就需要在运维的工作上多下工夫,切勿进入“一流设备、二流设计、三流运维”的不良运营之中,高品质数据中心运维的工作至关重要。那么如何才能提升数据中心的运维水平,本文提出了数据中心运维工作制胜的四大法宝,做好这四个方面的工作将使数据中心一直运行于最佳状态,为数据中心创造最大的受益。

工程文档

文档对数据中心运维的工作非常重要。包括数据中心的安装、配置、优化、组网、设备互连等方方面面,通过这些文档可以对数据中心的运营了如指掌,在出现故障时迅速排查,找到故障点。文档还有一个重要的作用就是工作的传承,当有人员离开时,他只要留下工作的文档,其它人交接工作就很容易。还有就是工作经验的积累文档。虽然各种数据中心大同小异,基本是靠服务器、网络和存储三大件打天下,但每个数据中心又都有自己的风格,自己的优势与劣势。通过对数据中心运维而输出的各种技术文档,将为后来人提供方便,并且可以提升数据中心整体的运维能力。数据中心的文档五华八门,你不知道什么时候其中的哪些文档就会派上用场。根据以往经验,数据中心的文档主要集中于三类:一是数据中心内部架构文档,比如:组网介绍、设备互连关系、IP分配情况、空调系统、机电系统、布线系统等的基本状况;二是数据中心管理文档,比如:机房管理制度、机房值班和交接制度、机房巡检制度、设备操作规范制度,安全防护制度等等。三是数据中心改造,优化工程文档。比如:升级指导书、网络变更计划书、应急措施指导、软件回退方案等等。四是数据中心运维的经验文档。比如:网络中断问题分析、现有机房环境评估、如果进行业务不丢包切换等等。利用这些文档,即使一个新人来做数据中心维护,也可以迅速上手。其实不仅对于数据中心这个行业,其它任何行业,任何工作都是如此,养成输出文档的好习惯,为自己也为别人提供方便,可以大大提升工作效率。

业务备份

数据中心的业务要求全年24小时连续运行,然而数据中心一个故障都不出是不可能的,甚至一些数据中心几乎天天都在上演各种故障。拥有数十万台设备的数据中心,每天坏一台服务器或一个端口都是在正常不过的事情了,这就要求我们对数据业务有备份。小到服务器、网络到存储,大到数据中心,都需要有备份,包含软件的备份和硬件的备份。通过备份,可以在数据中心运行出问题时,及时做业务调整,确保业务无中断或者短时中断。如今的数据中心可以做到多数据中心互为备份,就算其中一个数据中心瘫掉,业务也可以顺利由其它数据中心接管,继续正常运行,所以只要不是世界末日到来,在不同地方建设多个数据中心,就能保证数据中心业务的长期稳态运行。业务备份是庞大的系统工程,涉及到方方面面,任何一个环节都有一些备份技术,在数据中心里不可能任何地方都部署备份技术,那将使得数据中心成本过高,设计过于复杂,但是没有备份肯定是不行的,这就需要在两者之间找到一个平衡点。不管怎样,业务备份在数据中心里不可缺少。

在线监测

数据中心运行是动态的,每时每刻都在变化。我们无法预知未来会发生哪些突发故障,就算是每个环节都有备份,也需要有监测的手段,来保证业务切换到运行正常的设备上来。对于数据中心在线监测必不可少。在线监测包括网管的监测,服务器运行状态的监测,空调系统的监测,机房环境的监测等等,当发现异常时,即使将告警通知运维人员,或者软件自动启用备用系统,确保数据中心继续稳定运行。在线监测是确保数据中心无故障运行的保证,有效的在线监测可以减少数据中心故障发生时,对业务造成影响。

周期巡检

俗话说“防患于未然”,对于数据中心日常的周期巡检是不可缺少的。通过周期巡检,及时发现一些运行隐患,然后排除,可以大大降低数据中心发生严重故障的可能性。周期巡检可以包括对各种设备的检查,环境的检查,电源、空调设备的检查,填写日常巡检记录表,检修记录,作业操作表等等。通过以往记录的数据进行综合分析,一旦某些数据有波动或者异常,应该及时采取有效措施,避免隐患引发故障。通过周期巡检也可以对整个数据中心有个全面的了解,一旦要进行系统改造或者扩容等工作,有了前期这些巡检数据参考,制定的改造或扩容方案才更有针对性。千万不要以为周期巡检只是记录一些设备运行的基本参数,通过这些参数可以看到整个数据中心的运行状态。对于一个刚从事运维的新手来说,通过周期巡检可以迅速了解到数据中心的各个环节,独立展开维护工作。

工程文档、业务备份、在线监测、周期巡检是数据中心运维工作的四个重要方面,只有做好这四个方面的工作,才能让数据中心保持长期稳定运行,并能产生良好的效益,是数据中心运维水平高低的主要体现,拥有这四大法宝,将使数据中心终身受益。

作者:蓝雨泪

来源:51CTO

时间: 2024-10-22 09:54:49

运维好数据中心的四大法宝的相关文章

如何改变运维在数据中心中的地位

运维是数据中心里最为重要的工作,但却常常被人所忽略,这主要原因在于运维的工作是花钱部门,并且投入资金短时也看不到效果.而在运行出了故障时,又要运维被黑锅,将矛头指向了运维.实际上,一个数据中心运行的是否稳固是从其最开始建设就一定程度上决定了,就像一个人一样出身是非常重要的,虽然并不能代表全部.一个数据中心在最开始建设的时候要求就很高,各方面建设非常标准,冗余和备份系统非常完善,这样的数据中心后期运维也会很轻松,故障发生概率很低,即便出了故障也有备份系统正常接管业务,确保业务不受任何影响.不过,就

快易省智:数据中心UPS四大演进方向

数据中心是信息社会的关键基础设施,是ICT技术的核心载体.ICT技术发展带来的个人信息消费的增加与企业及各种机构的信息化建设和改造催生了巨量的数据中心建设需求.据ICT research预测,2012年至2020年间,中国数据中心的数量将从4万个增至8万个,从1000万m2增长至3000万m2.数据中心的大规模建设进一步加大了市场对于UPS的需求.然而,现在的UPS真的能适应数据中心的发展,尤其是未来云数据中心的发展吗?未来的数据中心需要什么样的UPS呢? 快:快速部署.快速扩容 目前在数据中心

数据中心UPS四大演进方向

数据中心是信息社会的关键基础设施,是ICT技术的核心载体.ICT技术发展带来的个人信息消费的增加与企业及各种机构的信息化建设和改造催生了巨量的数据中心建设需求.据ICT research预测,2012年至2020年间,中国数据中心的数量将从4万个增至8万个,从1000万m2增长至3000万m2.数据中心的大规模建设进一步加大了市场对于UPS的需求.然而,现在的UPS真的能适应数据中心的发展,尤其是未来云数据中心的发展吗?未来的数据中心需要什么样的UPS呢? 快:快速部署.快速扩容 目前在数据中心

解析:集装箱式数据中心的四大疑问

2006年10月,原SUN公司提出一个颇具想象力的"黑盒子计划(Blackbox)",构想是将数据中心的主要组件,包括计算机硬件.供电和冷却设备等全部放到一个标准集装箱中,即我们今天所说的集装箱式数据中心.而且,SUN真的造出了这么个集装箱式数据中心,并拉着它前往世界各地进行巡展,还登上了我国的长城,在业界一时风头无二. SUN集装箱式数据中心Blackbox Blackbox登上长城 SUN的创意迅速得到IBM.惠普.戴尔.SGI等国外厂商的积极响应,这些厂商先后推出了相关的产品.尤

电信运营商在数据中心的投资足够了吗?

虽然电信运营商移动数据业务的快速增长主要依赖于数据中心,但很多电信电信运营商认为对数据中心的投资并不是当务之急. 但一些印度电信公司并不这样认为,他们仍在大量投资建设Tier IV数据中心,以支持他们的数据市场增长.对于数据中心设施的具体支出金额,印度和美国的电信运营商并不愿意透露. 以下的例子表明,电信运营商仍然依靠数据的繁荣为他们提供丰厚的收入. 沃达丰公司首席执行官维托里奥.科劳表示,公司2016年第二季度4G业务规模增长了63%, 4G业务扩展了一倍多,用户数量达到5300万个. AT&

数据中心稳定运转的法宝——远程运维

数据中心运维是数据中心长期稳定的保障,非常重要.但是运维工作也是异常辛苦,经常要加班到深夜,并且全年无休,尤其一旦遇到突发故障,在恢复之前都得不到休息,所以有人形象地描述:锄禾日当午,不如运维苦,对着破电脑,一调一下午,这是对数据中心运维工作的真实写照.正因为这样,从事数据中心运维工作的年轻人偏多,是因为没有人能够干得长久,年轻人体力好,刚开始有热情还可以坚持,时间长了就很难维持了.本来数据中心行业这几年得到了高速发展,需要更多的运维人员,但是这类人才却越来越少了,尤其是现场维护的人员.造成这样

数据中心运维从零开始

运维是数据中心里最为重要的工作部分,不过如果和朋友说起自己是干运维的,总会让人听起来感觉有点低级,很多人会想到专科技校.蓝翔电脑培训出来的都是搞这个的.不错,数据中心运维也需要大量这方面的初级人才,完成一些基本的重复性的操作类运维工作,但这只是运维很小的一部分内容.希尔顿是开饭店的,路边也有很多开饭店的,而人家希尔顿开的是五星级酒店,而且是在全球各地开,同样是开饭店的,却有大不同,没有任何可比性.所以,不要一对别人说自己是搞运维的,就觉得比搞金融.互联网.计算机的低一等,运维的工作里也有做得高大

数据中心的敏捷运维之路

随着数据中心的建设规模越来越大,出现了很多大型,特大型的数据中心.这些数据中心往往拥有数万台的服务器规模,再加上互联的网络设备.防火墙.负载均衡等设备,一个大型数据中心需要管理同时运行的几万台设备,并且数据中心的业务仍然在不断变化,几乎天天都要做各种各样的网络变更,同时也不断有设备出现这样那样的故障问题.数据中心规模增加一倍,在运维上面就要增加投入数倍的力量,这样在数据中心不断扩建的过程中,运维的工作已经不堪重负,一味增加运维的投入将严重影响数据中心整体效益,而且大量投入得到的效果并不见得好.在

CIO:云计算数据中心运维管理要点

云计算运维管理的要点云计算在运维管理中其所涵盖的范围非常广泛,其中主要包括了对环境管理.网络管理.软件管理.设备管理.日常操作管理.用户密码管理以及员工管理等多个方面.要良好实现以上的管理目标,则应着重从云计算运维管理中的运行监控.安全性管理和自动化处理这三个要点出发. 运行监控 云计算的运维管理应从数据中心的日常监控人手,对日常维护管理.事件管理.变更管理以及应急预案管理等进行全方位的日常监控,以提前发现问题并消除隐患.通过对云计算良好的运行监控,从而实现对各个系统服务的统一管理,以及对各服务