数据中心流程之关机

尽管工作准则与操作流程对IT运维十分重要,可当数据中心IT人员需要对设备进行关机时,他们通常是不做任何准备就开始关机。这种情况通常来的很快,还没等真正反应过来,IT运维人员就已经开始操作起来,在他们看来,似乎是设备系统升级那样轻松平常。

事实上,很多数据中心对关闭设备都一套自己的标准程序以及响应方式,以此避免给数据中心带来重大损失和事故。

经过精心设计与经过可靠验证的数据中心关机流程对于保障数据中心业务的连续性以及关机中不可预见的意外状况都能起到至关重要的保护作用。

关机操作流程定义了迁移或关闭应用程序;保存重要数据;关闭物理系统;稍后,再成功开机(重启系统)。让我们来看看在关机操作流程中都有哪些重要文档需要我们去记录。

1.验证和更新系统文档

所有数据中心关机流程都是为了最终能够成功重新启动系统,为此,在关闭设备之前做足充分准备是确保关机后能够成功重新启动设备系统的关键。

创建一个全面的(或者至少是当前可行的)关机、开机各种文档的集合是很有必要的。这个文档可以用来记录每个分区的system’s volume(系统卷标),操作系统、应用程序配置,特别记录在重新启动后期间可能或意外被更改的内容。有很多工具都可以用来创建这个文档,通过工具对这些文档进行统一管理、用工具获取、记录系统状态。不要忘记获取或记录任何一个网络设备或存储阵列的配置状态。

2.明确依赖关系

事实上,企业、组织等机构对设备系统的依赖性是不同的,因此,IT人员在制定设备关机启动流程时,需要考虑以下各种设备的特性:网络设备、存储阵列、DNS服务器、备份服务器数据和调度程序等。当所有重要的设备服务器、存储、网络以及重要的服务(如DNS)等重新启动后,启动顺序(startup sequence)就会转移到重启应用上,紧接着启动独立应用,如:企业销售系统。

接着,再启动与这个应用相关的所有进程,如:公司店面网站。在制定流程的过程中,要识别和了解数据中心内部各种不同的依赖关系。IT人员会记录下依赖关系从而制定合理的流程关闭、重新启动系统、服务和应用程序,以避免系统中断或出现故障,浪费启动时间。如:不在启动服务器之前启动依赖它的存储阵列。

3.执行并验证备份

备份对任何数据中心而言都是重中之重,在设备停运之前,必须对重要数据进行备份。在设备关机之前,验证并完成计划中要备份的系统,并手动备份任何系统中未预期备份的数据或在关机之前备份恢复点目标(RPO,recovery point objective)。

通常,传统的备份方法会试图获取每个服务器上的数据进行单独备份,例如:备份SAN数据;可虚拟化数据中心却可以选择最近的VM-aware (虚拟机感知)进行备份,如快照和远程复制。

备份数据如果只是通过一种方式或工具是根本无法完成的,无论选择哪种工具备份都必须符合自身数据中心业务发展与设备自身需要——最关键的是确保一切数据都已备份,同时测试、验证这些备份是否完整并可恢复。如果时间有限,请集中将时间用于备份重要业务数据。最后提醒大家,未经备份的系统或数据都存在风险。

(备注:恢复点目标(RPO,recovery point objective)是指在因硬件、程序或通信发生故障,而导致的计算机、系统或网络出现故障时,必须从备份存储中恢复以保证系统正常运行的文件的年龄。恢复点目标在时间上是从故障发生时开始向后表示的(即到过去),它可以以秒、分钟、小时或天来表示。它是灾难恢复计划(DRP)中重要的考虑因素。

VM-aware :VM感知存储或虚拟化感知存储是在利用虚拟机(VM)的虚拟化环境中对存储基础设施的智能管理和监视;在VM感知存储环境中的关键因素是存储组件与VM一起管理,而不是作为单独管理的卷或LUN(逻辑单元号)管理。)

4.检查并验证系统硬件

检查硬件状态并识别是哪部分硬件发生故障。管理工具可以将错误报告以邮件或信息的方式告知IT人员,将事件发生记录到log files(日志文件)里或通过设备面板实时跟踪记录事件全过程。但并非被记录的所有事件都能够立即解决。

例如,RAID 6组中的RAID 5磁盘可能会出现问题,并被重写到另一个备用磁盘上,IT人员可能需要一些时间完成更换和重建故障的磁盘。比如:在将VM工作负载迁移或重新启动到其他可用系统的服务器;也有可能在出现类似问题时,即使查看错误日志或看到面板显示信息后,依旧无法立即修复这些问题,这些问题会在系统关机之前被IT人员发现,提醒IT人员再次确认这样的问题会不会影响关机或重启。

IT人员将在关机之前做出明智的决定来处理需要解决的问题,确保待决的问题不会影响重新启动。

5.严格按流程关闭系统

一般来说,成功的数据中心关机流程的制定原则:始于关注IT设备的外部环境,并逐渐转向制定设备内部流程。关机之前有可能会先注销并关闭终端用户,再关闭应用程序。例如:先关闭Web服务器、Exchange等服务,接着再关闭数据库和中间设备。虚拟化环境会接着默认关闭virtual instances,例如像VMs这样的虚拟设备,其次是诸如VMware vCenter或Microsoft System Center这样的管理工具。只有这样, IT团队才能关闭物理服务器。一旦服务器关闭,IT团队才可以接下来继续关闭存储和网络设备。IT团队有可能会通过确保不间断电源系统、监视器、配电单元和其它辅助设备的正常运行来关闭系统。

6.恢复并验证系统

当停机结束时,IT团队便可以执行重新启动流程。理想情况下,重新启动将是与关机是完全相反的过程,但并非总是如此。重启系统时需要考虑到电源分配,需要对重启设备顺序进行调整安排,逐一开启设备,而不是一次性全部开启,以防止导致断路器跳闸或对设备的防浪涌冲击的保护。每个主要步骤还涉及一些设备数量的验证或测试,以确保在执行下一个启动步骤之前,设备或软件保持正常运行。

例如,在尝试启动任何存储阵列之前,打开网络设备并验证其是否已正常启动。打开存储阵列后,请检查是否有任何故障磁盘,有问题的磁盘组和其他可能的问题。

以上文档是在制定关机流程中必须要考虑到的部分,需要考虑到业务、设备的不同,因地制宜对自身数据中心制定合理的、可靠的关机流程,这对于自设设备安全性以及业务连续性都能起到重要作用。

本文转自d1net(转载)

时间: 2024-12-24 07:54:07

数据中心流程之关机的相关文章

数据中心管理的最佳方案

数据中心基础设施管理(DCIM)有助于规划公司的基础设施及改进数据中心的管理.但是,DCIM也可能导致IT部门与设备部门之间缺乏协调.在本文中,将了解如何帮助这两个团队积极有效的沟通.配合,通过使用不同的DCIM产品和工具成功地管理数据中心.这是获得处理数据中心管理及目前不断变化的服务器技术问题的最优方法. 使用DCIM工具数据中心管理 顾名思义,数据中心基础设施管理(DCIM)能够帮助企业.公司对数据中心进行有效管理.可当你如果询问数据中心不同部门的工作人员,"基础设施"是什么,都包

以备万一:创建数据中心关机程序

一份数据中心关机检查表能够帮助IT团队在关闭电源和损失全部有价值数据之前,集中进行备份.测试以及系统验证等事项. 尽管策略和流程是现代IT的关键,但每当需求提升时,数据中心管理员往往来不及关闭设备.需求就像接近中的暴风雨那样富有戏剧性,也可能市政电网升级那样司空见惯. 但是,企业准备和响应设施关闭的方法可以鼓励或避免成本上的灾难. 一份精心构思和经过测试的数据中心关机程序在业务连续性规划中起着至关重要的作用.它定义了迁移或关闭应用程序.保护有价值的数据.关闭物理系统的最佳流程,然后晚些时候再成功

构建数据中心关机程序,做好最坏的准备

数据中心关闭清单有助于IT团队在插拔硬件,并在丢失有价值的信息之前专注数据备份,测试和系统验证. 尽管政策和流程对于现代IT至关重要,但数据中心管理员通常因为中断事件而措手不及,没有关闭需要关闭的设备.这种需求可能像暴风雨即将来临一样剧烈,或者仅仅是一次普通的市政电网升级.但是,企业准备和响应设施关闭的方式可以避免灾难带来的损失. 经过精心设计和测试的数据中心关闭程序在业务连续性规划中起着至关重要的作用.它定义了迁移或关闭应用程序,保护有价值的数据,关闭物理系统的最佳过程,然后在事件或故障之后重

数据中心业务中断 多与运营流程有关

TiePoint-BKM工程设备公司运营解决方案总监David Boston表示,三分之二的数据中心业务中断与其运营流程有关,而不是基础设施系统.如今,许多关键行业在发展和运营过程中投入了大量的时间和资源进行培训和教育,如核工业,军事和民用航空,甚至是司机,而数据中心行业却没有这么多的时间和资源进行培训. TiePoint-BKM工程设备公司运营解决方案总监David Boston表示,三分之二的数据中心业务中断与其运营流程有关,而不是基础设施系统.他说,"大多数人都意识到流程导致了大部分的停机

vCenter初始化数据中心和集群

接着上一次的文档"7.vCeenter部署流程2",vcenter软件已经安装在2008上了,同时win2008上的和vmware相关的服务都已经启动,这里一定要检查以下: 打开服务器管理器(就在任务栏第一个,win+1快速启动),有时候开机后回自动启动:       然后在左侧目录中找到配置-服务:   看到途中那两个服务,一定要反点启动,因为一开始他们都是延迟启动的,这里建议直接设置为自动模式" 这样就方便多了(在反点属性里) 这两个服务不启动的话client是登不上去的

《云数据中心构建实战:核心技术、运维管理、安全与高可用》——1.4 数据中心规划与设计

1.4 数据中心规划与设计 从数据中心的选址.基础设施的配备.系统之间的架构到管理平台的规划都有相应的规则和指标.数据中心必须指定具备数据中心建筑资质的单位承揽,由专业电气工程师和机械工程师来完成整体建设,它的基础建设是整个信息系统的基石,容不得半点马虎.1.4.1 建筑总体规划 数据中心是企业信息战略的"家",这个"家"一旦落成,10年甚至20年都不会改变其地理位置,故建筑的整体规划需要多方面考虑. 1. 数据中心的规模 各个数据中心的等级.分类.可用性指标不同,

伊顿ARRAY 3A3 Pro UPS提升数据中心价值

秉承为客户提供安全.可靠.高效率的解决方案的核心理念,全球领先的动力管理公司伊顿新一代模块化ARRAY 3A3 Pro UPS(15-150kVA),能够更好地满足各类数据中心.灾备中心和http://www.aliyun.com/zixun/aggregation/11991.html">计算机网络机房对UPS 产品高性能和高可靠性的需求. 伊顿ARRAY 3A3 Pro模块化机柜式UPS是目前业界较先进.可靠的三进三出配电方式的UPS之一,采用全数字化控制技术,集中了当今电力电子和自动

掉电是数据中心无法抹去的痛

电源对于数据中心的重要性就好比心脏对人类的重要程度,没有电源的持续供电数据中心就无法运转.当数据中心的设备出现自动断电.关机.电源故障等相关不良现象时,统称为掉电故障.掉电给数据中心带来的损失将非常严重,数据中心可能直接会停止运转,所有的应用系统都无法继续运行.比如2016年6月大连电信枢纽机房因市电故障,设备突然闪断,并造成部分线路短路,变压器受损引起跳闸,导致核心设备出现故障.掉电造成大连市区.旅顺地区移动网用户手机通话.短信等功能无法正常使用;2015年11月山西证券就因为数据中心机房掉电

如何让现代数据中心实现可视化,模块化管理

从大数据到云计算,今天的 CIO 们正苦苦寻找着如何挖掘数据中心更多价值的新方法.以无处不在的智能http://www.aliyun.com/zixun/aggregation/32413.html">网络体系为核心,采用虚拟化的架构和模式,随业务的需要灵活配置资源,让数据中心更智能,更环保,更绿色,并能将连接,存储,应用等其他 IT 资源有机的融合在一起已经越来越成为当今数据中心的主流趋势. 现代数据中心的资源分配方式,一方面考虑最大化,即留有充分的冗余和空间来适应未来的增长,这样必然造