事故保密影响数据中心运维安全

日前,数据中心行业专家获得一个可以提高数据中心可靠性的简单建议,就是将数据中心冗余设施提高一个数量级,如果数据中心行业可以被说服并采纳的话。专家认为这个并不现实。

可靠性并不是一个绿色节能的问题,但它肯定与能源效率有着相互影响。这二者要求往往是相互对立的,可靠性越来越高,通常意味着数据中心在储备区储存更多的柴油乃至整个热备用设施部署更多的设备,这都会增加了企业的碳足迹。

但是,在可靠性方面的所有这些努力可能会导致碳浪费,其实际上可能是在浪费时间。

很多人可能对他们的数据中心的可靠性感到迷惑,关键设施专家伊迪•安森特对此作了一个发人深省的演讲。

安森特在报告中指出,有时候硬件会失效,这种情况并不常见,但数据中心的故障通常是由于人为错误,或者因为数据中心设施的设计、测试、维护或操作细节被忽视所造成的。

接着他列举了一些经典的数据中心的事故,例如一个数据中心,其备份柴油储存罐忘记了密封,其导致的后果是柴油机没有及时启动,其原因是那个只有20美分硬币大小的部件缺失。故障发生时,电力系统从飞轮切换发电机组,但是其输出频率开始漂移。这为一个静态转换开关创造了一个“异相”的条件,其变压器线圈饱和。

在另一个例子中,一个数据中心通过两个飞轮UPS系统对其进行电源冗余备份,但是还是发生了故障。当安森特被召集来调查时,他马上就知道问题出现在哪里,因为他在其他的数据中心遇到过这种情况。

这种故障可以进行预测和预防,但前提是以前的故障调查结果已经公布。因为数据中心的故障调查在正常进行下需要签署保密协议(NDA),因此该信息如果公开的话,将让那些存在此类问题的企业受益,但事实上由于保密,通常不会公开这些信息。

如今,由于技术的进步,复杂的系统可以做得非常可靠。那些成熟的行业,如航空业可以实现无故障10万到20小时,而这个数字则是数据中心行业的耻辱,因为没有做到。

“数据中心可靠性还有上升的空间,只是因为人们不同意分享。”安森特说。航空公司被迫通过法律来分享事故调查的结果。他们受到严格管制,因为一旦发生故障,那么乘客将命悬一线。

这并不适用于数据中心,尽管这可能会改变,因为在数据中心基础设施中,需要承担更多重要保护人身安全的功能。而业内人士不希望得到严格的监管和控制。

但在这次会议议上,安森特提出一个想法。那就是在共享一个匿名数据库的基础上,经历事故的数据中心可以分享自己的失败情况,通过实际调查,数据中心行业人士都可以从案例中进行学习与借鉴。这个想法如果得实施的话,就可能促成数据中心的可靠性真正的突破。

促成这件事情将是一场艰苦的斗争,但这应该赢得行业人士的支持,因为无论谁都想要削减数据中心的成本,无论是浪费的电力,资金或精力。

作者:Harris编译

来源:51CTO

时间: 2024-10-10 01:12:49

事故保密影响数据中心运维安全的相关文章

ITIL在数据中心运维中的应用

随着数据中心建设规模越来越大,运维的工作变得十分重要.运维的工作效率与好坏在一定程度上决定了数据中心的整体水平.数据中心运维工作涉及两大方面:一是确保数据中心的稳定性而对数据中心各个环节进行维护;二是当数据中心内出现问题时,能够及时定位并且解决,以缩短故障时间.前一个是基础,后一个是关键.这就像当兵打仗,俗话说"养兵千日,用在一时",平时对数据中心各个方面进行了精心的检查和熟悉,对整个数据中心状况了如指掌,那在数据中心发生故障时,才能迅速找到痛点,明确故障原因,并采取恢复措施.一个数据

简述数据中心运维知识体系架构

数据中心要正常运转,离不开大量的运维工作.运维的工作需要很多专业技术人才,要做好数据中心的运维需要掌握多学科.多门类的专业技能,运维的工作不强调人才对一门技术有多专.有深度,但要有广度.出于成本的考虑,数据中心不可能聘入所有专业知识领域的人才,需要的是通用人才.如何才能成为一名优秀的数据中心运维专家呢?本文就来说一说运维工作所需的知识体系架构,根据这个知识体系架构,对自己弱势的部分有针对性地学习,很快就能成为一名数据中心运维专家. 数据中心运维知识可以分为三大部分:运维技术.测试和开发和运维管理

数据中心运维人的中年危机

数据中心属于年轻人的行业,紧随科技前进的步伐,在数据中心里从事技术运维的人普遍年龄较轻,一般在30岁以下,尤其是一些技术操作人员都很年轻,这是由这个行业的发展特点所决定的.数据中心里技术更新换代很快,很多人跟随不上这样的节凑慢慢也就被淘汰了,还有一些就是仅掌握了初级操作水平的人员,这些工作替代性强,新手往往几个月就可以上手,这样的工作自然不需要经验丰富的老员工,与其为老员工支付高工资,不如用年轻员工,这样人力成本大为降低,工作基本也不会受到影响.在富士康的经营中,我们看到其永远都处于缺人,不断招

数据中心运维从零开始

运维是数据中心里最为重要的工作部分,不过如果和朋友说起自己是干运维的,总会让人听起来感觉有点低级,很多人会想到专科技校.蓝翔电脑培训出来的都是搞这个的.不错,数据中心运维也需要大量这方面的初级人才,完成一些基本的重复性的操作类运维工作,但这只是运维很小的一部分内容.希尔顿是开饭店的,路边也有很多开饭店的,而人家希尔顿开的是五星级酒店,而且是在全球各地开,同样是开饭店的,却有大不同,没有任何可比性.所以,不要一对别人说自己是搞运维的,就觉得比搞金融.互联网.计算机的低一等,运维的工作里也有做得高大

数据中心运维工程师必备技能

运维的工作是数据中心里最为重要的一部分工作,在整个数据中心的生命周期里,持续时间最长,拥有一批高水平的运维工程师是数据中心长期稳定运行的法宝.虽然数据中心的运行故障不可避免,但通过有效运维,可以大幅降低故障发生的频率,并在出现故障的时能够有效及时地恢复业务.在这些过程中,运维工程师的水平起到了至关重要的作用.作为数据中心里的一名运维工程师,应该掌握哪些技能,才能在工作中游刃有余.要知道数据中心里有很多设备,而作为一名运维工程师不可能,也没有必要全部掌握,要懂得应该掌握哪些技能,一些基本命令和重要

优云软件叶帅:“互联网+”时代的云数据中心运维思辨(二)

2017中国开源产业峰会暨中国国际软件博览会分论坛,优云软件叶帅在开源云计算技术创新论坛发表了<"互联网+"时代的云数据中心运维思辨>的主题演讲,本文根据演讲内容整理而成. 无论是稳态还是敏态,大家关注的内容最终的目标并不会发生变化,最终的目标都是保证当前的数据.业务或者用户能够得到一个比较好的系统体验,是不是说随着云环境或者容器对象的引入,当前的IT对象或者IT服务就能够得到持续的比较好的体验呢?其实往往不是这样的. 随着业务系统或者整个IT架构发生一个复杂的变化,要管理

数据中心运维需要的三大认证

数据中心的好与差需要有个衡量的标准,这可不是靠"老王卖瓜自卖自夸"就可以了.所以随着数据中心行业发展的成熟,出现了一些第三方的数据中心认证标准,这些标准按照自己的评价标准对世界各地的数据中心进行评估,得出评级.很多数据中心参与到这些认证中来,主要还是要提升自己的知名度,以便吸引更多的客户将业务放到自己的数据中心来.同时,这些第三方评估机构随着评估水平的高低,受认可程度也不同.数据中心领域其实并不缺少标准,包括国际标准.行业标准以及国际标准有很多,但是这些标准并不完全统一,而且有的标准更

高效数据中心运维团队的7个习惯

何运行一个庞杂的机房,进行无数的主动和被动的操作,同时避免错误导致的数据中心故障? 以终为始 以终为始是一种以结果为导向的思维方式,提示人们在做事情前要先明确做事情的最终目的,也就是"不忘初心,方得始终".数据中心的终极目标是支持业务系统的不间断运行.在接手一个数据中心的运维任务之前,我们首先需要明确业务连续性目标,然后才能制定相应的运维策略. 以人为本 70%的数据中心故障是由人为造成的.与此同时,即使有最先进的监控系统,数据中心内无论主动保养操作,还是应急反应,都还需要依赖于人员的

数据中心运维——消防安全“四个能力”

数据中心建筑不仅仅包括计算机系统和其它与之配套的设备,还包含冗余的数据通信线路.环境控制设备.监控设备以及各种安全装置,作为数据中心运维管理人员更应熟练掌握"四个能力". 数据中心建筑不仅仅包括计算机系统和其它与之配套的设备,还包含冗余的数据通信线路.环境控制设备.监控设备以及各种安全装置,作为数据中心运维管理人员更应熟练掌握"四个能力".消防安全"四个能力"是公安部构筑社会消防安全"防火墙"工程提出的,即: 1.提高社会单位