一般情况下,IT系统都是在安全措施良好的空调房间里工作,很难和飓风等恶劣的自然条件联系上。在恶劣的自然条件下,CIO
该如何保证IT系统正常运营?且看一个CIO在飓风来临的时候,是怎么保护IT系统的。
与很多CIO不同的一点是,同自然灾害和极恶劣的天气做斗争已然成为简·瑞得奥(Jan Rideout)工作中不可缺少的一部分。她是Northrup Grumman公司的副总裁兼船坞系统部门的CIO。今年的飓风">卡特里娜和去年的飓风伊万都袭击了她负责的船坞系统。
准备不嫌多
造船坞一般都在海边,海边随时可能受到风暴的袭击。瑞得奥认为,与恶劣天气作斗争首要的一条是作准备。
瑞得奥负责的是公司两个造船坞的信息系统,一个在密西西比的比洛克西,另一个在Avondale附近。去年,飓风伊万接连两次袭击了海湾,由于作了充分的准备,飓风没有造成破坏。瑞得奥成功地完成了公司的计划任务,并且保证了造船厂的正常运行。
然而,不是每次飓风来临都有足够的时间作准备。今年的飓风卡特里娜,就和瑞得奥开了一个玩笑。在星期五的早上,飓风改变了预报的路线,转向新奥尔良。这让瑞得奥和她的同事没有太多的时间进行准备。
但瑞得奥还是有计划的,她对待风暴的计划都是差不多相同的。面对这种情况,她改变了备份大量的重要数据的方法。这次她的工作人员把备份信息发送到达拉斯,而以前都是发送到移动基站的。
把备份的数据发送到公司在达拉斯的数据中心,是因为在那里可以避免飓风袭击而造成数据破坏。飓风留给瑞得奥的时间很短,动作必须迅速。在上次的风暴中,一些重要的系统得到了备份,因而可以让机器保持运行。“我们让邮件系统和黑草莓服务器保持运行。” 瑞得奥说道,“但是却使得其他的机器都瘫痪了,包括专用分组交换机(PBX)。”
另外,为了保护服务器不受到从破窗户或是漏屋顶进来的雨水的破坏,瑞得奥使用塑料皮盖住没有在工作的服务器。
除此之外,瑞得奥面对的难题还有如何提供足够的电力保证服务器正常运行。就在去年,瑞得奥的信息部租用了一个备用发电机,然而在风暴中需要给船坞的内部系统供电时,却发现电已经耗尽了。对瑞得奥来说,今年一件幸运的事情是,准备了一个好的发电机。“我们在Avondale安装好发电机,接下来它就可以自动供电了。”瑞得奥说,“而在比洛克西,我们需要手动控制发电机。”这样船坞的防御工作就差不多了。Northrup Grumman信息部门的员工已经尽最大努力保护数据中心免受飓风卡特里娜的破坏,瑞得奥希望进展能像去年那样顺利。
幸运只是偶然
然而,事情并不如希望的那样顺利。风暴破坏了几座船坞的大楼,糟糕的是,信息大楼也是其中之一。当风暴袭击了发电站,瑞得奥和她的同事们只能眼睁睁地看着保护好的服务器断电了。“数据中心在较远的大楼。”她说,“那些大楼内部吃水都有25米。”
数据中心大楼的一侧完全被吹跨了,并且瑞得奥发现事情比她原本担心的更糟糕,“我们被那些大楼害苦了”。其他一些机器随着大楼的破坏也受到一定的损坏,信息部门要想恢复工作就需要先修好它们。“在大楼里的东西都遭到了破坏。”瑞得奥描述了损坏情况,“我们损失了200个服务器,网络通信设备也遭到了破坏,公共基础设施也不能工作了。”
随着风暴的减退,瑞得奥开始了重建工作。首先是要从达拉斯接个专员过来,由这个专员到数据中心评估损坏的严重性,然后才能开始其他的工作。现有的办公室已经坏得不能用了,幸好他们有备用的办公室。“船坞系统组的同事们就在我们自己正在建造的一艘船上开始工作。”她说,同事们在这艘将要完成的驱逐舰上繁忙工作着。“已经有一些海军在船上工作了。”她特别强调,虽然舰船已经交付海军,她的同事还是受到船员的欢迎,在他们的帮助下修整遭受了飓风袭击的船坞。
然而想要保证整个信息基础设施的后援与正常运行仍有些问题。瑞得奥说,首先要重新建立起通信,才能够与工作人员直接进行通讯,而这要求建立某种程度的通信网。信息中心的员工使用卫星电话进行相互间的通讯,这样才使得下面的工作得以进行。
重建的困难
Northrup Grumman启动了灾难恢复计划,开始重建在达拉斯的信息中心。要做的第一件事情是要更换在密西西比的受到破坏的设施,包括服务器、客户端到通信设备以及一些基础设施。在第一批设备一抵达达拉斯时,信息部门的员工就开始工作了。
瑞得奥为所要做的工作确定了一个优先顺序。从地点上,先是在达拉斯,然后再到其他地方。从系统上来说,需要优先恢复的是邮件系统和黑草莓系统环境,接下来是数据系统(DDX),这是用于为海军研发一种新型驱逐舰的,这个系统几天后就要用于一个大型的项目评估。因为是政府的项目,无论如何也要及时恢复。即使是对于遭受飓风后需要重建的公司,政府也没有因此给予特殊的待遇。
这对瑞得奥构成了挑战。现在整个基础设施都遭到破坏,把一切都恢复正常要比恢复几个服务器困难得多。她需要一周的时间去恢复DDX项目的所有系统。项目组需要再用一周的时间,去找到不依赖以前的信息设施也能正常工作的方法。
在启动了紧急预案并清空了两个仓库后,瑞得奥意识到,如果仍待在海岸上就实在太危险了。现在主机放在达拉斯,并且它也是唯一的可以容纳200个服务器的数据中心,而暂时还不会把它运回来。所幸的是在密西西比仍有瑞得奥的信息支持部门,所以那里也有工作需要完成。瑞得奥在密西西比和达拉斯的数据中心增加了新带宽,从而保证两地数据的正常备份。
但是基础设施的缺乏继续影响着恢复工作的进行。“我们的本地网络连接也有问题。本来这些网络设施是放在船坞里的。我们不得不搬到租来的大楼里,而那里却没有网络设施。”不过她说对于这个特殊问题还是有一点办法的。“我们要利用在风暴之前完成的无线网。我们花了3年时间给船坞配备了这个无线网络。现在这些无线网卡终于派上用场了。”
人是最宝贵的
这些年,瑞得奥已经带着她的信息部同事和数据中心两次撤离船坞,而且事后还要重建。如果她不这样做,结果又会有什么不同呢?瑞得奥认为在这种情况下,如果有个地方能够迅速转移,毫无疑问将是很有效的办法。可是,在出现飓风之前,她没有想到需要找个中转地。
瑞得奥认为,人的因素需要更多的考虑和更好的计划。她的一名同事在这次灾难中丧生了,而且四分之一的同事无家可归。“当你想到他们不顾个人危险所作的事情,你一定会感动。”她讲述了她的同事为此付出的巨大代价。“我们必须首先关心我们的员工安危。”
“在达拉斯,我们有50个员工在恢复服务器。” 瑞得奥想到了她的同事。“她们中的有些人在这里的家都没有了,这真是令人感动。”因此关心她的员工将是瑞得奥的首要工作。如果员工的心和家都在密西西比,那么她不会要求他们离开的。“我们不会让他们因为这个而失去工作。但是如果他们自己愿意搬去达拉斯,那我们也是会同意的。”不管员工选择哪里,瑞得奥都会尽量满足他们的需要。“他们不需要搬家。这就是科技带来的好处。”
不是每个CIO都要和飓风作斗争,但是每个CIO保持系统持续运营的原则是相同的
CIO如何告别救火
现在,业务部门对IT的依赖越来越大。在系统正常时,没有人注意到CIO的重要性,一旦出现问题,都去责备CIO。为了保证系统正常,作为CIO常有一种战战兢兢的感觉。然而影响IT系统运行的因素很多,不只是飓风,还有病毒、黑客甚至员工的误操作。这些常见的问题让CIO疲于奔命,到处救火。
其实,应付这些日常的事故和对付飓风的原则是一样的。文中瑞得奥为了应付飓风天气,采取了预防与紧急救援两个方面的措施。为了保证系统的正常运转,CIO在平时要做各种预防的工作,比如:及时打补丁、更新病毒库、制定应急措施等。在系统不能正常运转时,要按照合理的顺序有计划地实行救援策略。
总结以往的经验,并预想将来可能发生的情况,在系统正常运转时要做好充足的准备,对于确保系统正常是至关重要的,也可以减少CIO救火的次数。