避免数据中心停机:运用适当的电源设计和调试

数据中心的中断问题持续困扰着IT人员。执行数据中心调试或审计,拥有坚实的电源设计,以保护您的组织免受宕机影响。

在其他众多知名公司之上的美联航、达美航空和西南航空公司—最近遭受了主数据中心的中断。而他们的过于公开的关机处理又给IT管理人员的问题清单上增加了另一项烦恼。

据报道,许多这些数据中心的事故是由于电力故障引起的,这并没有很出乎意料。根据Uptime Institute的研究,发动机发电机系统是数据中心主要的电力来源,应采用公用事业电力作为经济的选择。然而,公用事业电力中断“并不被认为是一种故障,而是一种预期的运行状况,相关站点必须做好准备。”

换句话说,大多数企业数据中心都可能会发生这样的电源中断。对于在其职业生涯之中担心这种事情的CIO来说,这可能是资助部分所需改进的机会。但是,请注意:简单地增加冗余设备并非解决之道。

关键任务数据中心电源设计的挑战

企业数据中心最大的漏洞是隐藏的缺陷和安装错误。简单地复制设备和真正的关键任务的设计之间的差异是巨大的。然而,为潜在的故障点检查数据中心电源设计是一个艰巨的过程。考虑聘请高素质的独立专家为您的组织执行此任务。

您可以通过设计和安装来不断审视全新或更新的设施,但另一个问题是在现有设施在使用过程中进行漏洞补救。当您纠正漏洞时,您对操作的公开可能导致事故。但是,即使您不进行风险更正,需了解潜在的故障可能在哪里,以尽量减少数据中心中断的风险。

并不安全的备用电源

记录最详尽的电力故障中断之一发生在旧金山的365 Main。该公司拥有冗余不间断电源(UPS)系统和发电机,以满足客户对不间断供电的期望。但是在2007年7月24日,墨菲法案(Murphy's Law)不请自来。

首先是电源故障。数据中心的UPS保持供电,直到发电机启动。但是不久之后,这些发电机一个接一个地关闭,造成数据中心中断,这几个小时影响了公司的高阶客户。

尽管数据中心拥有坚实的电力系统设计,但数据中心运营商并没有通过调试测试来揭示发电机控制中的问题—固件。相比于反复测试故障和在负载下重启发动机,管理员选择依赖于备份电源和冗余的虚构的安全性。

许多现代UPS系统可以指示服务器在电池寿命降到预设阈值以下时开始受控停机。虽然(此方法)不是很理想,但实现此功能远比在重新启动时遇到严重问题要更好。

如果您可以修复漏洞,请制订详细的计划,了解如何解决此漏洞,以及如何处理补救过程可能导致的潜在故障。例如,如果管理员发出火灾报警器,应该有人与他一起处理这种情况,并避免倾倒气体防火系统和自动停机。并且,如果计划在工作期间关闭火灾报警器,通知设施,安全和消防部门,并确保有人用便携式灭火器待命。如果存在冷却故障的潜在可能,则计划启动选择性停机以减少热负荷并放置便携式空调作为预防措施。

通过调试尽可能减少数据中心的中断风险

即使数据中心电源设计是完美的,仍然可能会出现错误,管理员只能通过调试来识别。 调试代理不仅查看安装的正确性,并验证正确的设置和调整,但也可能会尝试破坏系统。要完成测试,代理使用一组脚本,在模拟条件下运行基础设施系统,并关闭各种元素,就好像它们发生故障一样。

调试过程还包括负载下的总电源关闭,并且可能会在单个设备中引入额外的故障,具体取决于用于设计意图的可用性级别。该过程还应识别不清楚的标记和无保护或难以达成的关键控制,例如关闭电源紧急按钮没有保护盖和警报不响。

对于新设施来说,在设计开发阶段开始投产。如果您使用独立的调试代理,在完成项目设计之前,请确保代理识别并补救出大部分的潜在缺陷。这不仅减少了数据中心中断的可能性,而且避免了大规模更改订单成本的潜在可能。

在现有的数据中心,多次关机来查找问题是过于危险的,这是说完全意义上的调试是无法实现的。在这种情况下,请考虑使用数据中心审计,其中涉及到关键系统的设计审查和现场测量、测试和检查等的组合过程。虽然它不会暴露每种潜在的情况,但它可以暴露绝大多数的漏洞,并为实践中提供补救的办法和路径。

本文作者:Robert McFarlane

来源:51CTO

时间: 2024-12-02 03:16:37

避免数据中心停机:运用适当的电源设计和调试的相关文章

防止数据中心停机需要采取什么措施

日前,据调研机构对于数据中心的运营调查报告中表示,某些数据中心宕机事件本不应该发生.而其宕机的主要原因并不是由于恶劣天气.计划外维护.甚至电网故障等因素导致,相反,这是一些组织糟糕的计划和维护不当造成的.从航空公司到互联网巨头,这些主要的用户和企业都已经成为了停机中断事件的受害者,并且也深刻感受到这些可以预防的数据中心中断事件的影响.然而不幸的是,这种情况并不少见. 数据中心行业厂商通过对欧洲各国IT和数据中心管理人员的调查表明:27%的受访者表示在过去的三个月遭遇过长时间的中断,对组织业务产生

[文档]云数据中心操作系统副本分布算法的设计与实现

云数据中心操作系统副本分布算法的设计与实现 颜秉珩 张明富 张俊 介绍云数据中心操作系统(云海0s)中的副本分布算法,该算法用于解决云存储环境下的副本分布问题,将存储节点的选择问题转化为一个多指标决策问题(MCDM),使用TOPSIS进行求解.算法能够充分利用云计算环境下的多种检测数据,结合灵活的权重分配方式,适应多数云存储环境.模拟实验表明,云海0s算法在负载均衡和副本创建时间方面优干传统的Least和Ran-dora算法. 关键词:云存储 数据副本 副本放置 [下载地址]http://bbs

数据中心的直流电源与交流电源

本文作者Robert McFarlane认为尽管目前AC的使用仍然更为广泛,但他建议数据中心运营商们在某些情况下选择采用DC可能会有助于提高能源效率.但涉及到数据中心的的直流电源与交流电源的讨论时,很显然双方都有为数不少的支持者. 全球的电网是以交流(AC)而不是直流(DC)的形式分配电力. 对于交流电源的选择可以追溯到19世纪,彼时,托马斯·爱迪生开始第一次吹捧DC的简单性,而像乔治·威斯汀豪斯和尼古拉·特斯拉等人则都支持AC的使用.由于AC被证明更容易在远距离交付商业用电,而且其所使用的铜线

数据中心停机中断真的是无法回避的现实吗?

最近几个星期以来,我们已经陆续听到了不少关于数据中心中断事故影响到一些具有较高知名度的美国企业的报道,包括华尔街日报.纽约证券交易所和美国联合航空公司在一周内均受到不同程度的影响.尽管想要百分百的防止每一次停机中断事件的发生是不可能的,但这些被媒体高度宣传的问题可能会花费大量的资金成本,并会显著影响到客户如何看待一家企业,进而影响到企业形象和声誉.为此,我们特地采访了业界的专家们,向他们咨询了一系列的问题:包括企业应该做些什么工作,以便能够维持高水平的正常运行时间?导致停机中断的原因都包括了哪些

数据中心节能减排之路漫长 绿色设计大势所趋

SanDisk闪迪中国区售前技术总监艾昆坦言:"绿色数据中心.数据中心的节能减排业界一直在提,但并没有看到实际案例中有把节能减排设为定性指标的.一方面是多数企业级客户的数据中心建设规模还不够大,绿色起到的节省成本不够明显.另一方面,绿色数据中心还缺乏相关标准,省电省空调.省占地都还未能标准化." 近日,工业和信息化部办公厅.国家机关事务管理局办公室.国家能源局综合司三部门联合发文正式对外发布了国家绿色数据中心试点单位名单,这份共有84个试点单位的名单涉及制造领域8家.金融领域3家.能源

我国数据中心产业从“中国制造”走向“中国设计”

如果说,我国数据中心产业之前一直都是扮演着"追随者"的角色,那么天蝎整机柜服务器和模块化数据中心两大创新成果的"落地",则标志着我国数据中心产业的创新能力得到了大幅提升,正在从"中国制造"走向"中国设计",并向着"中国创造"的方向不断推进. 天蝎整机柜服务器规模部署 作为我国国产化数据中心中的"明星",天蝎整机柜服务器从诞生至今一直得到业界高度关注.作为BAT三大互联网巨头共同推进的技术

虚拟化数据中心系统总体架构和业务设计

VDC系统共分四层:物理层.虚拟层.管理层.业务层:主要由五部分构成:虚拟资源池.虚拟管理平台.运营管理系统.门户和云终端.物理层主要包括现有物理硬件设备和后续扩容物理硬件设备.虚拟层主要包括服务器虚拟化和存储虚拟化.通过相应的虚拟化技术,形成物理计算资源池和存储资源池,以便上层管理层进行调度和管理.管理层主要包括针对服务器虚拟化进行管理的虚拟计算管理平台.针对存储虚拟化进行管理的虚拟存储管理平台和系统运营管理平台.业务层主要包括针对不同业务的门户平台以及相应的 3G终端.瘦客户端和其它客户端.

避免数据中心的停机 节省真金白银!

随着大量数据应用和业务量的激增,对大多数企业来说数据中心安全运行至关重要.然而,大多数企业低估了维护数据中心安全运行的重要性.据统计,数据中心的停机一分钟平均损失将超过8800美元. 那么,数据中心停机的原因是什么?又该如何避免这么此类事件发生呢? 以下是数据中心停机的一些最主要的原因: UPS系统故障.如果企业投资建设数据中心,就必然要构建可靠的UPS供电系统,虽然其名为"不间断",但并不能保证百分之百的可靠性,无论采用什么类型的UPS,仍然有可能发生短时间(10秒以内)或长时间(超

数据中心电源仍然困扰着CIO

位于纽约州波基普西的Marist大学进行了一个了预测分析,可以在大学的一个学期的第三周判断学习首席信息官课程的学生课程是否能够及格.这种情况来自十几个数据来源,其中包括相关的在线论坛的参与性能分析,在线活动,以及收集学生的相关数据.通过分析课堂行为和潜在的网上活动参与情况,教师能够识别潜在的问题,并在学生面临失败之前,解决这些问题. 想象一个与之类似的项目,分析企业是否面临基于数据密集型项目失败的风险,如高性能计算集群或数据分析,他们已在计划或正在进行中?其标准需要是什么?当然肯定会有一些关于服