飓风就在下一刻 CIO如何保证系统正常运营

一般情况下,IT系统都是在安全措施良好的空调房间里工作,很难和飓风等恶劣的自然条件联系上。在恶劣的自然条件下,CIO
该如何保证IT系统正常运营?且看一个CIO在飓风来临的时候,是怎么保护IT系统的。

  与很多CIO不同的一点是,同自然灾害和极恶劣的天气做斗争已然成为简·瑞得奥(Jan Rideout)工作中不可缺少的一部分。她是Northrup Grumman公司的副总裁兼船坞系统部门的CIO。今年的飓风">卡特里娜和去年的飓风伊万都袭击了她负责的船坞系统。

  准备不嫌多

  造船坞一般都在海边,海边随时可能受到风暴的袭击。瑞得奥认为,与恶劣天气作斗争首要的一条是作准备。

  瑞得奥负责的是公司两个造船坞的信息系统,一个在密西西比的比洛克西,另一个在Avondale附近。去年,飓风伊万接连两次袭击了海湾,由于作了充分的准备,飓风没有造成破坏。瑞得奥成功地完成了公司的计划任务,并且保证了造船厂的正常运行。

  然而,不是每次飓风来临都有足够的时间作准备。今年的飓风卡特里娜,就和瑞得奥开了一个玩笑。在星期五的早上,飓风改变了预报的路线,转向新奥尔良。这让瑞得奥和她的同事没有太多的时间进行准备。

  但瑞得奥还是有计划的,她对待风暴的计划都是差不多相同的。面对这种情况,她改变了备份大量的重要数据的方法。这次她的工作人员把备份信息发送到达拉斯,而以前都是发送到移动基站的。

  把备份的数据发送到公司在达拉斯的数据中心,是因为在那里可以避免飓风袭击而造成数据破坏。飓风留给瑞得奥的时间很短,动作必须迅速。在上次的风暴中,一些重要的系统得到了备份,因而可以让机器保持运行。“我们让邮件系统和黑草莓服务器保持运行。” 瑞得奥说道,“但是却使得其他的机器都瘫痪了,包括专用分组交换机(PBX)。”

  另外,为了保护服务器不受到从破窗户或是漏屋顶进来的雨水的破坏,瑞得奥使用塑料皮盖住没有在工作的服务器。

  除此之外,瑞得奥面对的难题还有如何提供足够的电力保证服务器正常运行。就在去年,瑞得奥的信息部租用了一个备用发电机,然而在风暴中需要给船坞的内部系统供电时,却发现电已经耗尽了。对瑞得奥来说,今年一件幸运的事情是,准备了一个好的发电机。“我们在Avondale安装好发电机,接下来它就可以自动供电了。”瑞得奥说,“而在比洛克西,我们需要手动控制发电机。”这样船坞的防御工作就差不多了。Northrup Grumman信息部门的员工已经尽最大努力保护数据中心免受飓风卡特里娜的破坏,瑞得奥希望进展能像去年那样顺利。

  幸运只是偶然

  然而,事情并不如希望的那样顺利。风暴破坏了几座船坞的大楼,糟糕的是,信息大楼也是其中之一。当风暴袭击了发电站,瑞得奥和她的同事们只能眼睁睁地看着保护好的服务器断电了。“数据中心在较远的大楼。”她说,“那些大楼内部吃水都有25米。”

  数据中心大楼的一侧完全被吹跨了,并且瑞得奥发现事情比她原本担心的更糟糕,“我们被那些大楼害苦了”。其他一些机器随着大楼的破坏也受到一定的损坏,信息部门要想恢复工作就需要先修好它们。“在大楼里的东西都遭到了破坏。”瑞得奥描述了损坏情况,“我们损失了200个服务器,网络通信设备也遭到了破坏,公共基础设施也不能工作了。”

  随着风暴的减退,瑞得奥开始了重建工作。首先是要从达拉斯接个专员过来,由这个专员到数据中心评估损坏的严重性,然后才能开始其他的工作。现有的办公室已经坏得不能用了,幸好他们有备用的办公室。“船坞系统组的同事们就在我们自己正在建造的一艘船上开始工作。”她说,同事们在这艘将要完成的驱逐舰上繁忙工作着。“已经有一些海军在船上工作了。”她特别强调,虽然舰船已经交付海军,她的同事还是受到船员的欢迎,在他们的帮助下修整遭受了飓风袭击的船坞。

  然而想要保证整个信息基础设施的后援与正常运行仍有些问题。瑞得奥说,首先要重新建立起通信,才能够与工作人员直接进行通讯,而这要求建立某种程度的通信网。信息中心的员工使用卫星电话进行相互间的通讯,这样才使得下面的工作得以进行。

  重建的困难

  Northrup Grumman启动了灾难恢复计划,开始重建在达拉斯的信息中心。要做的第一件事情是要更换在密西西比的受到破坏的设施,包括服务器、客户端到通信设备以及一些基础设施。在第一批设备一抵达达拉斯时,信息部门的员工就开始工作了。

  瑞得奥为所要做的工作确定了一个优先顺序。从地点上,先是在达拉斯,然后再到其他地方。从系统上来说,需要优先恢复的是邮件系统和黑草莓系统环境,接下来是数据系统(DDX),这是用于为海军研发一种新型驱逐舰的,这个系统几天后就要用于一个大型的项目评估。因为是政府的项目,无论如何也要及时恢复。即使是对于遭受飓风后需要重建的公司,政府也没有因此给予特殊的待遇。

  这对瑞得奥构成了挑战。现在整个基础设施都遭到破坏,把一切都恢复正常要比恢复几个服务器困难得多。她需要一周的时间去恢复DDX项目的所有系统。项目组需要再用一周的时间,去找到不依赖以前的信息设施也能正常工作的方法。

  在启动了紧急预案并清空了两个仓库后,瑞得奥意识到,如果仍待在海岸上就实在太危险了。现在主机放在达拉斯,并且它也是唯一的可以容纳200个服务器的数据中心,而暂时还不会把它运回来。所幸的是在密西西比仍有瑞得奥的信息支持部门,所以那里也有工作需要完成。瑞得奥在密西西比和达拉斯的数据中心增加了新带宽,从而保证两地数据的正常备份。

  但是基础设施的缺乏继续影响着恢复工作的进行。“我们的本地网络连接也有问题。本来这些网络设施是放在船坞里的。我们不得不搬到租来的大楼里,而那里却没有网络设施。”不过她说对于这个特殊问题还是有一点办法的。“我们要利用在风暴之前完成的无线网。我们花了3年时间给船坞配备了这个无线网络。现在这些无线网卡终于派上用场了。”

  人是最宝贵的

  这些年,瑞得奥已经带着她的信息部同事和数据中心两次撤离船坞,而且事后还要重建。如果她不这样做,结果又会有什么不同呢?瑞得奥认为在这种情况下,如果有个地方能够迅速转移,毫无疑问将是很有效的办法。可是,在出现飓风之前,她没有想到需要找个中转地。

  瑞得奥认为,人的因素需要更多的考虑和更好的计划。她的一名同事在这次灾难中丧生了,而且四分之一的同事无家可归。“当你想到他们不顾个人危险所作的事情,你一定会感动。”她讲述了她的同事为此付出的巨大代价。“我们必须首先关心我们的员工安危。”

  “在达拉斯,我们有50个员工在恢复服务器。” 瑞得奥想到了她的同事。“她们中的有些人在这里的家都没有了,这真是令人感动。”因此关心她的员工将是瑞得奥的首要工作。如果员工的心和家都在密西西比,那么她不会要求他们离开的。“我们不会让他们因为这个而失去工作。但是如果他们自己愿意搬去达拉斯,那我们也是会同意的。”不管员工选择哪里,瑞得奥都会尽量满足他们的需要。“他们不需要搬家。这就是科技带来的好处。”

  不是每个CIO都要和飓风作斗争,但是每个CIO保持系统持续运营的原则是相同的

  CIO如何告别救火

  现在,业务部门对IT的依赖越来越大。在系统正常时,没有人注意到CIO的重要性,一旦出现问题,都去责备CIO。为了保证系统正常,作为CIO常有一种战战兢兢的感觉。然而影响IT系统运行的因素很多,不只是飓风,还有病毒、黑客甚至员工的误操作。这些常见的问题让CIO疲于奔命,到处救火。

  其实,应付这些日常的事故和对付飓风的原则是一样的。文中瑞得奥为了应付飓风天气,采取了预防与紧急救援两个方面的措施。为了保证系统的正常运转,CIO在平时要做各种预防的工作,比如:及时打补丁、更新病毒库、制定应急措施等。在系统不能正常运转时,要按照合理的顺序有计划地实行救援策略。

  总结以往的经验,并预想将来可能发生的情况,在系统正常运转时要做好充足的准备,对于确保系统正常是至关重要的,也可以减少CIO救火的次数。

时间: 2024-10-01 09:00:16

飓风就在下一刻 CIO如何保证系统正常运营的相关文章

两种蛋碎的方法来保证系统的稳定性

这两种方法对于大多数人来说都是没用的,因为我们没把系统的重要性看得那么高.系统出现问题大不了就换过系统,最多花费一天的时间就能大体上重现自己原来的电脑的设置了.但是有的人电脑里面放出杂,非常多东西,基本上会用还原功能,这样也可以保证系统不会被修改.所以小编只能说这两个功能很蛋碎,最少对于小编来说是完全没用的. 1 利用文件签名来验证系统文件是否被修改 这个功能我只能说太浪费时间了,谁如果能够去检查哪些文件被更改,那么只能说太太牛B了.当然如果你想牛B的话,可以也可以自己去查看下. 自己百度下wi

保证系统性质相符 首推模型检验技术

本文讲的是保证系统性质相符 首推模型检验技术,[IT168 资讯]自动地验证一个系统(硬件.软件等)的行为是否与预期的性质相符合是计算机领域的一个根本问题.模型检验(Model Checking)技术就是针对这个问题提出的解决方案之一.自1981年问世以来,模型检验技术已取得了许多突破性的进展.今天的模型检验技术已广泛应用于硬件工业和通信协议,并在诸如实时嵌入式系统.安全算法等软件验证方面取得了长足的进步,逐渐成为保证计算机系统可信的重要手段.为此,ACM 将 2007 年的图灵奖(Turing

以岭药业打造全面预算系统提高运营效率

本文讲的是以岭药业打造全面预算系统提高运营效率,日前,石家庄以岭药业股份有限公司(以下简称"以岭药业")携手景华天创(北京)咨询有限责任公司(以下简称"景华天创"),建设企业全面预算管理系统,提升财务绩效管理能力.此前,支付宝公司.如家酒店集团等多家知名企业集团先后携手景华天创,走进全面管理新时期. 2012年是以岭成立20周年.多年来,以岭药业以络病理论创新带动中医药产业化,运用现代高新技术研发现代中药.西药和生物药,研发国家专利新药9个,覆盖心脑血管疾病.感冒呼

避免Linux常见错误 保证系统安全

对于许多人来说,迁移到Linux是一件乐事.而对于另外一些人来说,这简直是一场恶梦.尤其是对于 一些刚步入Linux管理大门的管理员来说,如果不避免一些常见的错误,就容易给单位的网络或系统带来 安全风险.本文将为帮助这些新手们避免这些错误提供一些建议. 错误一:不经过严格审核,从多种渠道下载安装各种类型的应用程序 乍看起来,这也许是一个不错的主意.如果你在运行Ubuntu,你会知道包管理程序使用的是.deb软件 包.不过,你找到的许多应用程序是以源代码的形式提供的.没有问题吗?这些程序安装后也许

印度CIO口述:系统崩溃 我却不能

编者按:系统崩溃.系统灾难等难题对别人来说可能是灭顶之灾,但对于全球http://www.aliyun.com/zixun/aggregation/6277.html">广告公司JWT高级副总裁兼区域主管Sunil Mehta来说,解决这些问题易如反掌.因为他已经经受了巨大的考验,并拥有自己的秘诀. JWT公司现在拥有一个全单位灾难恢复和业务持续性计划,而且公司的IT人员还在继续完善它们的灾难恢复计划,并定期进行练习.而说到现在这个全面完善的系统,却又不得不提到几年以前那次偶然的事故. 软

CIO:互联网IT系统和传统企业IT系统的异同

打个比方,原先的大型企业系统架构,就好像一架大型的民航客机.作为出行来讲,飞机无疑是最舒适最快的交通工具,同时安全性也很好.但飞机却也不是人人都能坐的.首先:做飞机要经过换领登机牌,安检等若干道手续,乘客必须提前一个多小时到机场办理各种手续,而坐火车大巴则随到随买随上车,方便的多;其次:坐飞机很多东西不能随身携带甚至不能托运,火车大巴则相对宽松;还有:机票很贵坐飞机花销很大而且飞机运载能力也不如火车.当你有数万数千人要一次性到达某地时,一两架飞机的运载能力根本不够,要调动成批飞机的话整体成本又太

蜂巢安全管家怎样利用云扫描来保证系统不受木马病毒的侵扰?

  「蜂巢安全管家」与国际上十多家最主流的防毒厂商进行了合作,将他们的防毒引擎整合成为了在线扫描档案的平台,并且进行定期更新,使用者不必再担心多个防毒引擎互相相冲的问题.只需要在云扫描接口中上传可疑档案,即可完成扫描过程.对于可疑的行程,可以直接选择右键菜单中的「进行云扫描」来进行检测.

系统迭代,运营出现问题应急方案

如果当前系统稳定版是v2.3.0, 迭代后新版v2.3.1.由于新版运营中发现问题,怎么快速回滚? ①系统代码部分 1.如果系统配置版本控制,直接回退到v2.3.0的版本即可 2.如果没有配置版本控制,系统应该部署2套代码v2.3.0版和v2.3.1版.将运营系统入口直接指向v2.3.0版即可(废弃v2.3.1). ②数据库部分 要保证支持快速回滚,数据库有一些要求必须满足,数据库不支持回退,新版本多出的信息可以向前兼容. 1)废弃的字段或表等不能删除,因为现在用不到,以前的版本可能用的上,防止

【个人总结】O2O中的内容系统以及运营策略

接触O2O也差不多有 3个年头了,从大众点评.美团到现在的淘票票,作为O2O的消费决策PGC和UGC是用户作为消费的主要依据. 名词解释:OGC(Occupationally-generated Content,职业生产内容):比较早期的内容载体,主要由专业人员输出.例如一些报刊.门户网站的记着or小编.特点:1.更专业2.职业化3.有偿性. UGC(User-generated Content,用户生产内容):互联网时代的产物,人人都可以作为内容的发布者,赋予用户发言权.特点:1.人人参与2.