数据中心采用一定的战略,以确保能够获得清洁、持续的电力资源对于其IT系统而言是必不可少的。
曾几何时, IT仅仅只是另一项重要的商业资源。但到了今天,IT已然成为了许多公司的业务。没有了IT,大多数企业组织及哦股将无法为他们的客户服务;与合作伙伴展开合作,开发新的产品或执行其他基本的业务功能。
其结果是,数据中心的可用性已经成为确保企业组织机构的市场竞争力和盈利能力的一个重要的先决条件。然而,尽管企业组织机构已经尽了自己最大的努力来确保数据中心系统的可用性,但他们仍然非常容易受到各种各样的威胁。而其中最主要的是便是来自电力系统的影响问题。数据中心的健康运营需要依靠持续的清洁电力供应。然而,从电源系统设计的哪怕一丝一毫的缺陷到整个电网发生的故障,都可能导致即使是最现代和先进的数据中心陷入瘫痪。
庆幸的是,企业组织可以通过采取对他们的业务流程和电力系统管理经过验证的改变办法来显著的减轻其电源相关的停机时间。在本文中,我们将与广大读者朋友们共同探讨关于如何建立和维护一个高度可用的数据中心电力基础设施的10项尚未被业界充分利用的最佳实践解决方案。
业务流程管理实践方案
1、打破企业组织机构间的壁垒
在大多数公司,通常都是由两个独立的部门负责数据中心的管理:IT部门和基础设施部门。IT部门负责监控数据中心的计算机基础设施与应用程序,该部门通常是向所在企业的首席信息官报告。而基础设施部门则负责处理数据中心的能源和冷却方面的要求,该部门通常是向所在企业的首席运营官或负责公司不动产方面的副总裁报告。长期以来,这种企业组织结构的划分已经成为大型企业的规范常态,但其往往会导致负责维持工作负载的人员与负责提供电力资源的人员之间的沟通不畅。
从历史上看,企业IT和基础设施部门之间的协商不充分并为对数据中心的可用性构成太大的危险。直到最近,即使是在最大型的数据中心,其工作负载和功耗要求也是较为适中的,其IT管理人员们可以安全地重新安置服务器和工作负载,而不会对电力或冷却系统带来太大的压力。
然而,今天的大规模的服务器基础架构正在变得越来越大、更为耗电、同时也就会散发更多的热量。此外,刀片式服务器和虚拟化的广泛采用——在简化管理,并提高服务器利用率的同时,也大大增加了计算密度和由此产生的热量——也进一步的加速了上述这些趋势。
而在今天,在没有咨询基础设施工程师的前提下,服务器的蔓延,数据中心的散热冷却,工作负载或硬件的迁移都可能导致电力设施的超负荷或HVAC系统的不堪重负,这可能反过来进一步降低关键系统的运行效率。
然而,不幸的是,虽然最近几年以来数据中心行业本身已经获得了相当显著的发展,但数据中心内部的企业组织结构却并没有。其内部的IT和基础设施部门仍然是两个相关独立的部门,且相互之间在重要的业务事项方面往往缺乏充分有效的沟通。
解决方案:为了尽可能的减少与电力相关的停机时间的发生,企业组织应该就IT管理人员和基础设施管理人员在对数据中心的实现修改时应该如何以及何时进行相互协商的程序建立明确且标准的文档记录。
为了进一步推动IT和基础设施部门之间的有效沟通,企业组织也应该考虑改变自己的组织结构图,使得IT和基础设施两个部门都向相同的CXO级的高管报告。这可以通过在两个部门之间设置一套通用的业务期望目标和共同的报告结构,使得IT和设施管理人员之间的互动变得更容易。
图1:在经过优化的企业组织架构方案中,IT部门、基础设施部门和企业高管之间公开分享信息,并做出协同做出决策。
2、着眼于长期价值,而不是短期成本
在许多公司中,当涉及到数据中心的建设或改造翻新时,短期的投入成本和企业长远的价值二者之间的优先级别总是冲突的。企业的高级管理人员们通常都要督促负责数据中心建设的人员务必要尽可能的压低成本,缩短完工时间。其结果是,在数据中心的建设项目中所涉及到的供应链参与者、工程师、承包商和项目经理们往往都是基于谁的报价最低、并承诺最快的设备交付,而做出设备的选择决定。
但是,真正负责运营数据中心的工作人员们则有着一套不同的优先级,他们往往更为看重公司的长期利益。最低报价的硬件确实能够在数据中心的初期建设方面节省成本。但如果这一价格水平的设备其实并不符合原数据中心建筑设计定义的操作规范的话,随着时间的推移,其最终将以降低运营效率和正常运行时间的形式来让企业组织付出昂贵的代价。
解决方案:当对一处数据中心的建设或改造翻新项目进行审查和决策时,企业的关键执行人员务必应该仔细审查采购决策,确保一线的项目管理人员和承包商并没有以牺牲企业的长期利益为代价,来换取短期的成本压缩。他们也应该清楚明确地传达严格遵守数据中心原始设计操作规范的重要性,即使这意味着在施工过程中的花费会更多一点。
企业组织机构也需要为其数据中心设施建设的管理人员们设定目标,而不要过于把重点放在短期成本的降低压缩方面。为其采取了一套符合企业长远利益的、进而减少了对于数据中心设备寿命的可用性带来不利影响的采购方法而奖励其数据中心建设团队。
3、采用标准化设施的工作流程
现如今的IT部门正在越来越多地利用标准化的最佳实践框架,如信息技术基础设施库(ITIL,参见www.itil-officialsite.com)来帮助他们提高他们的工作流程系统化。ITIL是由英国政府在上世纪80年代提出的,其定义了特定的、有效的、可重复的方法来处理事件管理、服务台操作和其他常见的IT任务。那些遵循ITIL指南的企业组织机构大都充分享受到了更好的IT资产控制,进而使得他们能够更容易地诊断和解决IT故障。
不幸的是,一些企业的基础设施部门采用了严格、统一的维护流程,如那些由ITIL定义的流程,而不是依靠特设的程序和基础设施管理人员们所积累的专业知识。因此导致了数据中心电源和冷却系统的维护标准往往较低;或与IT系统不太一致,进而导致了停机时间的增加。
解决方案:虽然基础设施流程框架作为ITIL尚有待开发,但基础设施部门可以而且应该采取相应的措施,以制定他们自己的标准化、文档化的流程。按照一致的,可重复的方式进行必要的活动,可以显着降低功率和冷却故障的可能性,同时提高基础设施技术人员的工作效率。
4、维护一个基础设施变更管理数据库
航空工程师和专业的维护人员们早就了解到了强有力的变更管理流程的重要性。在一架既定的飞机上对于其所进行的所有维护程序都保持一份全面和准确的文档记录,对于确保飞机的安全飞行是至关重要的。此外,一旦发生事故,维修记录可以为在第一时间找出造成潜在的灾难性的系统故障的根本原因提供重要的线索。基于类似的原因,ITIL特别侧重于强调在一个全面变更管理数据库(CMDB)对于IT资源所有变化的仔细跟踪。在CMDB中的信息可以帮助 IT员工们更有效的解决服务中断,而且在紧急情况下,对于确保对于重要数据的及时访问是至关重要的时候特别有价值。
然而,不幸的是,仅仅只有很少一部分的企业基础设施部门维护了一套CMDB。其结果是,关于其数据中心的不间断电源系统(UPS)或关于当前哪些服务器或其它相关负载正在被处理等等诸如此类的唯一记录都只存在于管理人员的头脑里。而一旦这位管理人员离职或退休,这些宝贵的纪录便随之离开了,这无疑会使得数据中心被暴露在不必要的停机风险之下,同时电源/冷却设备受干扰后也将需要更长的恢复时间。
解决方案:企业数据中心的基础设施部门应建立并严格维护他们自己的CMDB。ITIL的指导方针为这一举措提供了一个有用的起点,企业组织也可以利用各种专门的CMDB软件应用程序。
5、评估电力系统组件时,要考虑易于维修性与可靠性等
人们经常会混淆了“可用性”和“可靠性”这两大概念。然而,事实上,这两个术语有相关的,但彼此又有着不同的含义。
可靠性——其是通过平均系统故障间隔时间(mean time between system failures,MTBF)来测量的,而其本身也是可用性的两大关键组成部分之一。另一大关键组成部分则是当发生故障失败时的平均修复间隔时间(Mean Time To Repair,MTTR)。可用性的计算公式如下:
可用性= MTBF /(MTBF + MTTR)
一台服务器、交换机或供电设备可能是高度可靠的,因为其很少出现运行中断停机;但却并不一定是高度可用的,因为其有着很高的平均修复间隔时间。然而,当评估系统的可用性时,IT部门往往完全忽视了维修时间。
为了搞清楚对于数据中心的这方面的可用性的疏忽或将导致的使得数据中心陷入的具体危险。我们可以假设一种情况:一家公司试图决定在其新的公司总部使用普通荧光灯泡与更复杂的LED照明系统之间做出选择。该LED系统是高度可靠的,因为它很少遇到机械问题。而一旦发生问题时,如果备用的LED灯泡没有存放在本地库存或无法从本地供应商处及时获得,那么,更换这些灯泡将会是一个相当耗时的过程。而另一方面,如果采用普通荧光灯的话,其MTBF大约是6000小时,这使得其可靠性显著降低。但是,更换普通荧光灯的过程通常是一个相当快速且成本相对便宜的过程,因为普通荧光灯是一款标准化的产品。故而当兼顾考虑到了可靠性和平均修复时间之后,该公司决定采用普通荧光灯泡实际上可能为其提供较之LED系统更好的可用性。
同样的逻辑也适用于电力系统的基础设施组件。设计用于长时间无间断平稳运行的系统,如果对其进行修复是一个耗时的操作过程的话,那么其可能不会提供高可用性。
解决方案:当评估电力系统的组件时,企业组织应该寻找那些既有高度可靠性,又能够快速修复的产品。特别是,企业组织应该仔细研究一款既定电力系统的制造商对于其产品提供服务的速度和有效性。该电力系统的制造商雇用了多少服务工程师,他们在哪里办公,以及当您企业的数据中心站点发生中断事故后,他们将如何迅速地到达现场?他们的服务支持是24/7全天候的吗?服务工程师们对于制造商的产品了解熟悉程度如何?如果他们不能解决某个问题,他们是否有权限访问升级的资源呢?如果其制造商不能调度安排经过了严格培训的服务支持人员及时进行故障修复的话,那么即使最完善和最可靠的电力系统,最终可能只会有糟糕的可用性。
企业也应寻找那些具有冗余的,模块化设计的产品。如果一款模块化产品在这种系统中发生故障,那么其他模块将会自动补偿,增加了父单元的MTBF。此外,更换的模块往往会比传统的组件更容易获得,而且其过程通常也是很容易的,只需要一两名技术人员能够快速安装,往往无需制造商的协助。其结果是降低了MTTR,从而带来了更好的可用性。
6、实现企业范围内的监控和主动诊断
与流行的看法相反,很少有系统故障没有提前发出过警告,除非是在发生了灾害的情况下。仅仅只是系统所发出的警告太常被忽视,因为在本质上其是监控系统的自然反应。
例如,假设一款UPS在某个深夜发生了故障,进而造成了您企业组织数据中心运行中断。那么很可能的情况则是,UPS已经在故障发生前的几天或几小时已经提前发出过相关的暗示或警号信号。例如,也许UPS或其电池已开始过热或出现性能下降。然而,如果数据中心的基础设施管理人员没有监测到这些性能指标,他们可能也不知道即将发生的故障,直到其最终发生。
解决方案:最新的企业管理产品可以帮助企业监控和主动管理涉及到关键任务的设备,包括电力设备,环境和生命/安全系统。但是如若没有经过事先的细致咨询就匆忙上马,那么,即使是最好的软件也没有什么太大的帮助。因此,尽管数据中心选择部署电力系统监测和诊断软件是一个重要的开始,但其基础设施部门也必须确保他们有严格的工作流程提前为即将安装的软件进行咨询,并迅速响应危险的迹象。
图2:最新的企业管理应用程序为企业的IT和基础设施部门提供了一款单一的、基于Web的视图,来帮助他们掌握数据中心的功耗和散热情况。如果电力系统元件存在能耗和温度超过阈值的危险,其还可以主动提醒运营人员和设备管理人员。电力系统实践
7、创建整体性的应急计划预案
每一家数据中心对于外部供应商的电力、燃料和水资源都有着相当关键的依赖关系。而每一家这样的外部供应商实际上都有可能在某个时间点上发生服务中断。而唯一的问题是,您的数据中心是否已经为其做好了充分的准备,以应对其随时可能的发生。
大多数数据中心都有相应的应急计划,以处理电力或水的损失。在停电的情况下,这些计划通常涉及到利用柴油发电机,直到恢复供电服务。但是,对于大多数的企业数据中心而言,在其所储备的24至48小时的柴油供应耗尽用完之前,电力供应仍未恢复又当怎么办呢?
这正是在美国东北部和加拿大地区的许多组织在8月2003日,当一个大停电,估计有5500万人没有权力的情况下,几天。许多公司,包括一些主要的金融服务提供商,在电力恢复之前均已经耗尽了他们柴油发电机的储备燃料供应。然而,不同于大多数的同行,金融服务提供商有大量的现金储备。因此,尽管面临柴油需求的暴涨,这些金融服务提供商仍然能够获得额外的燃料,而其他公司则争先恐后地收集资金或安全信贷。
解决方案: IT和基础设施部门对于许多或将造成数据中心运行中断的问题具有直接的控制。但是,即使是精心设计和精心构筑的基础设施,如若存在超出了企业的控制问题也是易受攻击的。因此,企业组织必须全面考虑可能会影响他们的数据中心正常运行的外部性问题,并仔细权衡成本和效益,并提前做好应对的准备。
例如,提前储备足够五天的柴油和水资源,以供给给冷却设备,而不是仅仅只够两天的储备,其成本可能更昂贵的。但其成本显然要比停机三天所造成的损失的成本更低。而断电超过48小时的可能性要比您所想象的大得多: 例如,当一场巨大的冰风暴在2008年12月袭击新英格兰和纽约州北部地区时,超过10万的客户在近一个星期后仍然没有电力供应。
因此,当涉及到应急计划的制定时,“做最好的希望,做最坏的打算”无疑是一套健全的经验法则。
8、采用适合您企业需求的电力系统拓扑结构
电力系统的拓扑结构对采购成本、运营费用、可靠性和平均维修时间有着重要的影响。对于一处既定的数据中心,您所设计的冗余越多,那么在其建造和运行过程中您企业所花费的成本也就会越多,但其也能够更快地从中断中恢复。
国际正常运行时间协会(The Uptime Institute)是一家专为企业数据中心的业主和运营商服务的独立的研究机构。该机构为数据中心的关键任务设施定义了四项电源系统拓扑结构来说明这一原理:
较之Tier III或Tier IV拓扑,一个Tier I或Tier II的拓扑相对便宜,但同时也提供了较少的可靠性和正常运行时间。
解决方案:当涉及到选择一款电力系统的拓扑结构时,并没有唯一正确的答案。企业组织应将他们的特殊业务情况和需求与其电力系统的拓扑结构相匹配。
例如,一个Tier II的拓扑结构对于托管了一款Web应用程序的一处数据中心可能是良好的,假设多个备份站点是可用的,那么用户如果偶尔会遇到几秒钟的延迟的话,他们不太可能会过多抱怨。然而,如若是在华尔街,哪怕仅仅几秒钟的延迟所可能导致的损失则也是以数百万美元计算的。因此,一处托管了金融交易应用程序的数据中心,选择采用一个Tier IV拓扑结构将是明智的。
9、更换过时的旧设备
电力异常可能会影响到敏感电子设备的运行,并包括组件中断,可能会对整个企业的业务产生重大影响。
数据中心一般利用不间断电源设备(UPS)来防止电源异常。这样的系统能够清洁“脏”的电力系统,并在供电中断期间提供应急电源。然而,直到最近,相对于其功耗而言,可用性最高的双转换UPS 系统往往是效率最低的,反之亦然。因此,那些希望能够尽量压低运营成本的企业组织可能已经部署实施了节能的UPS产品,这类产品交付低于平均水平的可用性;而那些更关注正常运行时间的企业组织则部署实施了高可用性的UPS系统,同时也浪费了电力资源。
解决方案:今天,已充分市场充分验证的成熟的UPS技术使得企业组织能够在一款单一的设备中同时享受到高可用性和高效率。对于那些使用较旧的不间断电源技术的企业组织而言,他们应考虑升级到这种新一代的设备,以便能够提高应用程序的可用性,并同时降低总拥有成本。
10、审查您企业数据中心的电力系统
大多数数据中心管理人员都认为,他们对于其电力系统的交付能力是清楚知道的。然而,事实上,真正能够做到这一点的数据中心管理人员是少之又少。这是因为大多数企业并没有定期对他们的电力基础设施进行审计。
只有通过审核电力系统,及您企业组织用来支持该系统的操作流程,您才能够建立您的数据中心的最大负载参数。当您需要把重要的新的IT工作负载投入生产,但却因为电力不足而无法做到时,仅仅靠依托产品规格和承包商的承诺会让您企业暴露在容量能力不足的困难风险之下。
解决方案:定期彻底的审核您数据中心的电源系统。
结论
在今天,维持一处大型的、散热量大且复杂的数据中心的可用性比以往任何时候都更为困难,也更具重要的战略性意义。特别是考虑到当前的全球经济一体化,可持续发展的压力和普遍的人口老龄化所导致的劳动力减少的大背景之下。企业组织已经利用了各种技术和流程,以确保关键任务的IT 系统能够获得清洁,可靠的电力资源供应。然而,大多数企业组织可以通过采用本文中所讨论到的相关解决方案来进一步减轻他们数据中心的停机时间。诚然,上文中所提到的某些方案可能需要您企业数据中心增加在新的硬件或软件方面的投资。但其实许多都如同让IT和基础设施人员互相有效沟通一样简单。
当然,在本文中所讨论的10项最佳实践解决方案并没有穷尽企业组织可以用来保护他们的数据中心,防止出现电力系统相关的服务中断的全部方式。而那些严重依赖于其数据中心的可用性的企业组织应该不断密切的关注和研究最一流的数据中心前沿技术和流程,并积极的采用这些前沿技术和流程。而在这样的任务上所花费的时间几乎总是以确保数据中心业务连续性的新的想法和思路的产生而给予回报的。
====================================分割线================================
本文转自d1net(转载)