如何应对数据中心突发事件(下)

摘要:数据中心运维团队需能够在没有任何预警的情况下,能够迅速、有效地应对突发状况。对于不可预见的问题,故障、危险可导致人身伤害或宕机的情况,都需有应对措施。

表3

所有事件应根据严重程度分配“等级”级别,第1级是最严重的,第5级是最不严重的级别。事件类的摘要定义如下:

第1类:人身安全

此类覆盖其它所有类。对人身造成生命威胁比对IT负载造成的威胁更重要。数据中心运维团队职责是通知应急响应团队,致电911,根据需要协助安全,并将责任传递给安全部门。本类别涵盖火灾、自然灾害、对人类生命的威胁和物理安全威胁。在经由数据中心内安全部门、消防部门或警察确认第1类事件后,数据中心管理层必须决定如何在工作环境中进行其它所需的恢复工作。

第2类:关键设施

定义为lT中断功能的事件,或者任何制冷系统或电气中的“N”丢失。可以通过询问两个问题来确定二级情况:IT在负载的冷却或电气支持方面是否丢失了“N”(冗余)? 或者丢失任何关键的IT负载? 第二类事件是“恢复”情况,需要数据中心管理层做出决策,才能执行恢复操作。

第3类:严重

没有其它备份系统可用; 即冗余已经从“N + 1”减少到“N”。还涵盖任何非调度发电机运行。当定义这个类时,需要问:“我们有额外的备份或空间吗?”如果答案是“否”,那么必须假定类3。

第4类:重要

关键系统冗余仍然可用,即存在“N + 1”。 由于可能存在的“冗余”的许多定义,第4类可能难以定义。 例如,在11号楼,服务器楼层的CRAC单位的损失将是4级。这是因为有许多其它单位将能够承担冷却,而不会因为损失而产生很大的影响 。虽然有备份,但故障依然被评定为重要的。 UPS系统的功率增加可以被认为是4级。

第5类:通知

该类旨在通知数据中心小组的直接上级主管。例如:强风警告,雷雨风暴警告。这类主要用于通知升级到更高级别的情况。该类还包括可能升级到更高级别的设备变化与维护工作,即冷却设备,UPS等。

对于设备事故、升级,应按照设备既有的相关升级程序执行。对于设备多数据中心,应该有一个24x7的操作中心作为集中资源来协调升级程序。

二、应急训练

训练的主要功能是评估运维人员对紧急事件的反应的熟练程度。书面和口头测试可以证明掌握专业知识的能力,但更重要的是,演习能够呈现知识和行动的熟练程度。安全解决危机或紧急情况在很大程度上取决于当时第一反应,并知道身处在哪里。演练可以了解技能、知识缺陷的部分,从而为持续培训提供机会,以便在发生真正紧急情况之前弥补这些缺陷。

演习是基于对现场环境的了解以及对设备系统运行理解的基础上进行。演习报告文档允许评估和记录个人绩效考核指标之一。也可以将演练作为加强运维人员对对数据中心环境以及对现有设备深入了解的机会。

演练应是强制性的,并且应针对每个高概率和/或高严重性的预期事件依据紧急操作程序(EOP)进行演练。应在每月对每项设备进行至少一次演练,但在任何情况下都必须满足合同要求与义务。重点应放在前十个EOPs,结合当前的情况进行威胁评估。基于对事件的分级,如复杂性或难度级别(例如“基本”,“中间”和“高级”)来对训练进行分组。

演练评估必须在是演练开始之前确认演练的目的,并在整个评估过程中关注评估重点。运维人员如若能以安全、及时的方式精准地执行流程取决于以下几点:

·充分了解设备、系统知识

·充分了解设备运行操作流程以及系统集成知识。

熟悉和正确使用各种流程文件(如:EOP,SOP,操作员手册等);当演习作为评估工具时,评估员需对整个过程在不提供任何指导,提示或更正的情况下,进行严格评估、记录数据中心运营团队的绩效。基本上数据中心运维人员都不会一次通过所有评估。

如果运维人员没有通过评估,则评估者或设备经理有责任制定一份行动培训计划,以解决评估过程中发现的所有缺陷。未通过评估的运维人员需完成指定的补习训练,受训人员可以进行一次或多次训练,经过多次重复训练,直至通过评估考核。在以训练为目进行评估的情况下,教练承担教练和参与者的作用,在训练期间积极地辅助和指导受训者。

随着训练演练的重复和操作员的学习,教练参与将减少,直到受训者自己做。将多个故障组合到单个演练中可以使它们更具挑战性。这使得对故障优先级,团队合作、事件管理技能能够进行更彻底的测试。例如:将主电源故障与备用应急发电机启动故障放在一起将是一个很好的示例。

当进行演练评估时,需考虑以下几点:

三、事件管理

· 为演练预演做简报,并提前提供评估记分卡,向工程师解释测试。

· 经验丰富评估员应事先熟悉脚本,再对演练进行记录与评估。

· 应在演练之前安装标志,以便告知正在进行评估的工程师演练情况以及报警情况。

· 评估人员在评估中扮演实时口述宣布改变报警状态与设备状态的角色,例如“发电机不会与母线同步”或“有来自UPS的报警面板”。

· 观察者不应帮助工程师确定解决方案,除非提供工程师有效信息,例如“该面板显示在1的位置”。

· 当获得解决方案或者评估人员不需要运维团队再解决什么问题的时候,评估结束。

· 评估人员对照评估记分卡上详细标准对工程师进行评估和记录,然后与工程师详细沟通评估全部内容,评估人员向工程师说明他们做对的部分,同时向他们详细解释他们做错什么。这需在评估后立马安排去做。

*事件管理

什么是事件?

关键设备中的“事件”是指由于意外、不寻常的、或突发事件导致的影响设备操作或安全的事件。

·设备或系统故障

·运维人员受伤/设施设备受损

网络通信故障/UPS报警/温度升高,超过阈值/UPS由市电供电切换到电池供电/面板断路器跳闸/烟雾报警器关闭/入侵报警/漏水传感器报警

· 关键设备需投入大量资金与人力来确保业务持续运行。这些设备环境条件应受到高度管理与监控。作为控制方案的一部分,重要的是要注记录和报告可能影响操作或安全性的任何意外事件。如果处理不当,这些事件可能成为危机,甚至是灾难。具有良好的应急准备和响应能力的组织将具有事件管理过程,该过程提供处理这些事件的标准化方法。一个有效的过程有三个元素:事件通知,事件报告和故障分析。

· 事件通知和标识事件通知包括提醒利益相关者发生事件的系统,过程和人员。重要的是及时通知事件。“及时”的意思将取决于事件的严重性和紧急性。环境中的烟雾将显然需要比涉及与单个环境传感器的通信丢失的事件更快速的通知。谁应该警告需要提前确定和计划。如前面表3所示,事故可以按紧急程度或临界程度分类。然后,该分类系统可以管理需要被通知的人,时间和频率。当然,假设基础设施系统被计量,装备和与软件通信,包括楼宇管理系统(BMS)在内的数据中心基础设施管理(DCIM)软件可以非常有助于简化和自动化事件通知(和报告)。可以集中配置和管理告警阈值和通知策略。太多警报或不正确的通知可能会导致系统无效。

事件报告

事件报告是一个通用流程,可能会改善或替代现有现有系统(例如,DCIM或BMS)或者现有的流程。以下部分涵盖从事件发生到事件响应以及后续行动的事件报告过程。

一旦检测到初始事件,做出及时响应并通知与事件相关的人; 建议事故报告在24小时内完成,并发送给所有与此事相关者。一旦有时间开始填写报告(当事件在人们心中是还记忆犹新),如果情况允许,在整个事件期间需不断完善报告。

应使用标准化模板报告所有事件。这有助于确保收集信息的完整性。它应存储在计算机化文档管理系统(CDMS)中。报告应包含以下信息。

· 报告信息

· 报表标题

· 提交报告日期

· 创建报表的日期和时间

· 报告提交的日期和时间网站信息

数据中心信息

· ·地址,城市,州或省,邮政编码,国家/地区

· 联系方式

事件报告创建者事件概述

· 事件简要说明

· 事件影响位置(例如发电机舱,UPS房间或整个设施)

· 涉及的设备

· 事件属性事件详细信息

· 事件和持续时间的时间/日期

· 谁发现

· 谁在场

· 描述初始响应操作

· 谁被通知和什么时候

· 情况如何稳定或解决

· 使用哪些资源

· 事件持续跟进:一旦初始事件被记录,后续将持续记录可能在这个事件中会发生的问题。例如,当系统组件发生故障并通过冗余单元恢复运行并致电供应商前往修复时,可能会发生事件。

故障部分。事故报告需要立即填写,并在批准与分配之前修复被影响的部分。一旦供应商开始进行升级工作时,需在报告中有所体现。

行动项目

· 这是针对特定事件发生制定的具体行动。

· 特定任务时用来纠正或提供有关事件的额外信息(例如订购部件,致电供应商,长期监控问题)。

· 负责执行任务的人员姓名。

· 预期或要求完成任务的日期。

推荐:

· 建议应采取各种可以防止未来事故发生的措施。如果故障分析报告涵盖这一部分内容,则可以跳过此步骤,但可以在任何情况下使用故障分析报告来推荐短期活动以减少故障连带反应的风险。

支持信息

这里可以添加任何支持信息,如插入照片,图表,附件文件名称,链接等的地方。语言必须是专业,准确,简洁,并且限于已经发生的事实。它应通过专业口吻传达必要的信息,无需通过叙事的方式描述事实。考虑到报告通常是给更多专业人士看,他们想要看到的是相关事实,而不是小说,或对任何人的行为道歉。避免长篇大论,建议将项目分成一系列带时间标记的步骤,显示活动的进展。任何对事故原因的猜测都应被推迟,除非原因显而易见与容易理解的。

报告的目的是通知与故障相关的人发生的故障情况,不是原因分析,这通常在后续的故障分析报告中显示。报告中的图片是非常有用的。每个步骤应该有已知的时间戳。当事件超过一天,应插入日期分隔符,其中包含模板中提供的新一天的第一个条目。

故障分析和经验教训

故障分析过程旨在提供一种确定和记录事件原因的标准方法,可以方便随时进行此类调查。它侧重于情况为什么发生。故障分析报告应该提供对发生在何处,何时以及如何响应的描述。这可以通过简单地参考事故报告或附加事件报告作为参考文件来完成。准确详细的问题记录可以为为运维人员提供宝贵的“经验教训”。当事件报告完成时对事件的完全理解尚未完成时,需要提供故障分析报告。

一旦事件得到解决,有一些问题需要考虑:

·故障分析:如果事故报告中没有写明事故发生主要原因,则应创建完整故障分析报告。这需撰写事件报告作者以及事件参与所有人的参与完成此报告。

·整合:对现有规定与流程进行重新审核,确保是否需要改善流程,从而有效防止或避免未来该类事件发生。

·经验教训:事故发生后,将事故报告发给运维人员学习,这对运维人员是难得的学习经验,应为此创建经验教训文件供运维人员学习。将经验教训资料与EOP、SOP交叉参考学习,对于运维人员是很好的培训、学习资料。

·归档:所有已结束的事件报告上传到文档管理系统并做出标识。

   

 

  

本文转自d1net(转载)

时间: 2024-09-08 06:39:01

如何应对数据中心突发事件(下)的相关文章

如何应对数据中心突发事件

数据中心运维团队需能够在没有任何预警的情况下,能够迅速.有效地应对突发状况.对于不可预见的问题,故障.危险可导致人身伤害或宕机的情况,都需有应对措施.只有做好充分准备,才可以迅速响应,最大限度降低突发状况对数据中心影响,并有效防止事故再次发生.文章描述对关键设备有效应急准备以及响应战略体系.内容由7部分组成,分为3类:紧急响应程序,紧急演习和事件管理. 即使经过专业设计与Tier IV认证的数据中心,也不能保证其100%的可靠性.由于IT系统意外停机,业务中断始终是一种潜在风险.做足准备是一种最

十个应对数据中心宕机的措施与方法

虽然数据中心的设计在理论上不会发生故障,但它确实会出现这种情况,因此数据中心运营商将面临非常严峻的情况,特别是托管数据中心. 根据最近发生的一些事情,表明托管数据中心遭遇停电和业务中断的后果是十分严重的.例如:英国电信公司是全球最大的通讯商和托管数据中心商之一,其运营的数据中心今年遭遇两次宕机事件.据报道,由于故障影响,伦敦及其周边地区的语音和数据流量下降了10%,事故时间长达四小时以上. 尽管在设计和运行数据中心时努力避免中断或事故,但数据中心托管设施并不能避免这些问题,其短期和长期的意外中断

应对数据中心的能源效率挑战

鉴于刚刚过去的十月份被数据中心业界宣传推广为节能宣传月(Energy Awareness Month),同时世界能源日(World Energy Day)也于10月22日正式举行,能源效率问题再一次成为了许多数据中心管理人员所备受关注的话题.虽然对于跨诸多行业的专业人士来说,能源效率都是一个相当重要的考虑因素,但对其真正引起高度重视的还当属数据中心市场--尤其是云计算供应商.托管服务公司和其他IT服务提供商,他们正在快速开放多租户数据中心(简称MTDC) . 正是由于上述这些企业组织所面临的激烈

应对数据中心断电 和力记易有良策

数据中心断电 2016年6月10日,大连电信枢纽楼机房因市电故障,设备突然闪断,并造成部分线路短路,变压器受损引起跳闸,因此导致核心设备出现故障.此种情况造成大连市区.旅顺地区移动网用户手机通话.短信等功能无法正常使用(但4G用户的数据业务正常),同时,导致大连市区.旅顺地区的部分固定电话和宽带业务中断. 意外断电是数据中心或者机房发生率最高的意外事件,据不完全统计,仅在国内每年因为断电故障而导致的数据丢失.数据错误或者业务中断的信息事故几乎每周都在上演.为了防止数据中心或者机房意外断电,增加多

防患于未然 教你灵活应对数据中心发展

如果企业IT只是跟着当前局势来发展,恐怕会比自觉发展要花更多的钱,所以提前做好计划才能带来回报. 容量规划需观察业务需求 配置虚拟化以及改善存储利用,能让组织更好地掌握数据和容量需求.例如,工作流程的自动化有很大帮助,能使IT环境测量容量需求,并启动当前需要的服务器.这种虚拟环境中,工作负载是可以快速启动或停用的,所以管理者容量足以启动需要的新机器,只需使用现有的硬件. 如果环境已经准备好面对利用率的突然提高,这种方案一般不会带来混乱.如果数据中心技术够只能,存储也可以使用类似的方式.自动精简供

软件定义数据中心条件下的物理基础设施优化之道

DCD上海站在浦东嘉里大酒店召开,在"如何优化物理基础设施,实现软件定义数据中心的顺畅运营"这一专家讨论环节,来自数据中心专业服务商的data24公司总裁罗耀兴与业内专家.分析师们,一起探讨SDDC给数据中心基础设施的规划设计和运营所带来的挑战和机会. SDDC:实现数据中心弹性扩容 在谈到在云计算及SDDC的全新应用模式下,如何进一步优化数据中心.合理规划基础设施的问题时,罗耀兴认为, SDDC从运用的角度提出了如何更有效使用IT系统资源的新思路,力求建立更有动态和弹性的资源配置方式

应对数据中心常见问题的IT监控策略

作为一个数据中心管理员,如果缺乏更大的视野,很容易陷入到千篇一律的解决问题的工作中.然而,数据中心的问题会从运行的方方面面产生,从操作故障到宏观经济问题.与其等待不可避免的问题出现,管理员应该积极的收集数据.分析趋势.做好应对准备. 本文介绍3个数据中心常见的问题,管理员通过IT监控操作,能够提前做好准备处理这些问题. 操作问题 如果修复BUG的周期长达12个月甚至更长,这清楚的表明了现有系统(例如COBOL)以及造成如此长周期的操作流程应该被替换掉了.数据中心管理员应该考虑将这些已有系统替换,

软件定义数据中心条件下的设施优化之道

2015年6月11-12日,全国数据中心行业领军人物和专家们齐聚上海浦东嘉里大酒店,共同参与Datacenter Dynamics (DCD) 中国企业级数据中心与云计算发展论坛(上海站). DCD论坛每年都有新的热点.在今年的DCD上海站论坛中,云计算.互联网+.软件定义数据中心(SDDC)等话题成为了大家特别关注的内容.在云计算时代,快速部署.灵活配置的需求,给数据中心行业带来了巨大的变革可能.   在"如何优化物理基础设施,实现软件定义数据中心的顺畅运营"这一专家讨论环节,来自数

软件定义一切——下一个数据中心模式?

虚拟化在数据中心的应用意味着软件定义计算逐渐成为主流,而在软件定义计算的成功摸下下,软件定义存储也迅速获得市场的认可,虽然SDS的商业解决方案还处于刚刚起步的阶段,但其大大提高了存储丹云的灵活性和可用性,这意味着存储单元在私有云和公有云数据中心中可以自动和动态的分配.  数据中心 迈向下一个数据中心模式? 很明显的是,软件定义计算正在数据中心中快速的增长,例如,如今在数据中心中增长非常快的软件定义网络,能够提高灵活性和配置网络虚拟化. 根据知名调研机构IDC表示,2014年至2018年,企业和云