编者按:系统崩溃、系统灾难等难题对别人来说可能是灭顶之灾,但对于全球">广告公司JWT高级副总裁兼区域主管Sunil Mehta来说,解决这些问题易如反掌。因为他已经经受了巨大的考验,并拥有自己的秘诀。
JWT公司现在拥有一个全单位灾难恢复和业务持续性计划,而且公司的IT人员还在继续完善它们的灾难恢复计划,并定期进行练习。而说到现在这个全面完善的系统,却又不得不提到几年以前那次偶然的事故。
软硬件都需备份
大约
三年以前,JWT公司的一直24*7运行的核心财务服务器宕机了一天,原因是一些操作系统和硬件故障。这个公司的风险排除时间可以接受的时限是48小时,
不过通过这次事件,该公司的IT人员
认识到,除了灾难恢复过程外,一些其他因素,诸如备份的管理和维护一个简洁干净的灾难恢复体系,都可能导致一些严重的问题。
Sunil Mehta表示,“我们一直对关键的数据进行定期的备份,因此在发生崩溃故障后,我们决定根据这些备份进行恢复。
但是由于操作系统也崩溃了,我们发现热插拔设备、
备份设备和盘阵已经没有用了。我们不得不恢复整个操作系统、应用程序和它们各自的参数和数据。这是我们从这次事件中学到的第一件事情:我们不应该仅仅依赖一个软件备份,同时也要做好硬件备份。”
“我们要面对的另一个严重的问题是,当我们试图从某些备份介质上恢复数据的时候,才发现这些备份介质不能被读取。这并非是一个特殊的问题,因为人们很少检查这些介质是否正常工作。这又给了我们一个教训:必须要确认备份介质是可以正常工作的。以后,根据萨班斯法案(SOX),我们对备份过程进行确认。”
事无巨细 有备无患
“尽管最后我们想办法恢复了所有的数据,我们还是意识到必须具有一个详细定义的企业范围内的备份过程。除了每天备份到磁带上之外,我们还每周进行备份。每日备份是在线进行的,而每周备份则进行离线存储。另外,还进行每月和半年一次的备份;后者需要财务领导现场监督和确认进行恢复试验。”
“这些详细的过程使得我们即使在最坏的情况下,也仅仅丢失了一天的交易数据。既使关键人员的电子邮件被备份到一个海外服务器上,也可以确保任何时候从任何地方都可以访问电子邮件通讯过程。”
“自从那个事件后,我们已经可以保证我们为各种意外情况做好了准备。即使在2005年7月115.html">26日的孟买暴雨灾难中,我们也有备无患。但是我认为,风险会一直存在,而我们所能做的全部工作就是减少它们带来的影响。我们必须学会去主动提前解决它们,而不是被动的应付。”