北亚数据恢复中心服务器硬盘故障数据恢复方案

【基本信息】
服务器型号:IBM X3850服务器,
硬盘型号:73G SAS硬盘,
硬盘数量:5块硬盘 其中4块组成一个RAID5,另一块做为热备盘(Hot-Spare),
操作系统:linux redhat 5.3,应用系统为构架于oracle的一个oa。

【故障表现】
3号盘早已经离线,但热备盘未自动激活rebuild(原因不明),之后2号盘离线,RAID崩溃。
oracle已经不再对本oa系统提供后续支持,用户要求尽可能数据恢复+操作系统复原。

【初检结论】
热备盘完全无启用,硬盘无明显物理故障,无明显同步表现。数据通常可恢复。

【恢复方案】
1、保护原环境,关闭服务器,确保在恢复过程中不再开启服务器。
2、把故障硬盘编号排序,用以确保硬盘取出槽位后可以完全复原。
3、将故障硬盘挂载至只读环境,对所有故障硬盘做完全镜像(参考<如何对磁盘做完整的全盘镜像备份>)。备份完成后交回原故障盘,之后的恢复操作直到数据确认无误前不再涉及原故障盘。
4、对备份盘进行RAID结构分析,得到其原来的RAID级别,条带规则,条带大小,校验方向,META区域等。
5、根据得到的RAID信息搭建一组虚拟的RAID5环境。
6、进行虚拟磁盘及文件系统解释。
7、检测虚拟结构是否正确,如不正确,重复4-7过程。
8、确定数据无误后,按用户要求回迁数据。如果仍然使用原盘,需确定已经完全对原盘做过备份后,重建RAID,再做回迁。回迁操作系统时,可以使用linux livecd或win pe(通常不支持)等进行,也可以在故障服务器上用另外硬盘安装一个回迁用的操作系统,再进行扇区级别的回迁。
9、数据移交后,由我数据恢复中心延长保管数据3天,以避免可能忽略的纰漏。

【预估周期】
备份时间:2小时左右
解释及导出数据时间:约4小时
回迁操作系统:约4小时。

【恢复费用】
略。。。

【过程详解】
1、对原硬盘进行完整镜像,镜像后发现2号盘有10-20个坏扇区,其余磁盘均无坏道。
2、通过对结构的分析得到的最佳结构为0,1,2,3盘序,缺3号盘,块大小512扇区,backward parity(Adaptec),结构如下图:
图一:

3、组好后数据验证,200M以上的最新压缩包解压无报错,确定结构正确。
4、直接按此结构生成虚拟RAID到一块单硬盘上,打开文件系统无明显报错。
5、确定备份包安全的情况下,经客户同意后,对原盘重建RAID,重建时已经用全新硬盘更换损坏的2号盘。将恢复好的单盘用USB方式接入故障服务器,再用linux SystemRescueCd启动故障服务器,之后通过dd命令进行全盘回写。
6、回写后,启动操作系统。
7、dd所有数据后,启动操作系统,无法进入,报错信息为:/etc/rc.d/rc.sysinit:Line 1:/sbin/pidof:Permission denied,分析为此文件权限有问题。
8、用SystemRescueCd重启后检查,此文件时间、权限、大小均有明显错误,显然节点损坏。
9、重新分析重组数据中的根分区,定位出错的/sbin/pidof,发现问题因2号盘坏道引起。
10、使用0,1,3这3块盘,针对2号盘的损坏区域进行xor补齐。补齐后重新校验文件系统,依然有错误,再次检查inode表,发现2号盘损坏区域有部分节点表现为(图中的55 55 55部分):
图二:

11、很明显,虽然节点中描述的uid还正常存在,但属性,大小,以最初的分配块全部是错误的。按照所有可能进行分析,确定无任何办法找回此损坏节点。只能希望修复此节点,或复制一个相同的文件过来。对所有可能有错的文件,均通过日志确定原节点块的节点信息,再做修正。
12、修正后重新dd根分区,执行fsck -fn /dev/sda5,进行检测,依然有报错,如下图:
图三:

13、根据提示,在系统中发现有多个节点共用同样的数据块。按此提示进行底层分析,发现,因3号盘早掉线,帮存在节点信息的新旧交集。
14、按节点所属的文件进行区别,清除错误节点后,再次执行fsck -fn /dev/sda5,依然有报错信息,但已经很少。根据提示,发现这些节点多位于doc目录下,不影响系统启动,于是直接fsck -fy /dev/sda5强行修复。
15、修复后,重启系统,成功进入桌面。启动数据库服务,启动应用软件,一切正常,无报错。

到此,数据恢复及系统回迁工作完成。
时间: 2024-09-10 16:50:12

北亚数据恢复中心服务器硬盘故障数据恢复方案的相关文章

IBM DS 5300存储硬盘故障数据恢复案例

    北亚数据恢复中心接到IBM DS 5300 存储数据恢复的案例:     IBM DS5300全名(IBM System Storage DS5300)是IBM推出的中端存储系统,它有一个设计合理.功能强大的内部架构,大幅度提升了性能,但某些物理故障或其他操作都可能会对卷或存储造成破坏,因此对系列存储的数据恢复技术才有了用武之地.而发生这些故障之后只能找专业的数据恢复公司做数据挽救工作.作者最近就处理过一起IBM DS5300因磁盘故障导致存储不可用的案例,见下文. 故障描述:    

Facebook的Hadoop应用与故障转移方案

本文讲的是Facebook的Hadoop应用与故障转移方案,在<数据大爆炸 一分钟=60秒=海量数据>一文中,我们曾提到在短短的60秒内,Facebook的用户会分享684478条信息,Like按钮被点击34772次.庞大的业务量时刻考验着Facebook的数据处理能力.我们知道,Facebook使用Hadoop来进行大数据的处理,但Facebook又是如何保障频繁.庞大的数据请求等高压环境下不发生故障的呢?我们一起来了解一下Facebook内部的Hadoop使用情况以及其NameNode故障

如何降低数据中心运行故障

2015年8月6日晚上,部分QQ用户出现无法登录故障,这直接影响到了腾讯旗下多款产品的连接使用,直到22:30左右才恢复正常,事后据腾讯确认是因QQ服务机房故障而导致.而在此之前的半年多时间里,多家知名互联网企业因服务器.网络设备产生的大大小小各种故障已有数十例.对于像互联网公司这样依赖优质的网络体验而生存的企业,如果出现故障,其产生的影响和后果非常严重.   既然网络故障带来的负面作用如此之大,可如何消除这种故障呢?没有任何一家企业愿意出现这种故障,而出了故障则说明其数据中心必定存在健康问题和

谷歌架构的转变:从单数据中心到故障转移系统,再到多宿主架构

运行单数据中心的系统很有难度,那么设想一下切换到双数据中心吧,假设你需要对多个位于不同地理位置的数据中心提供支持.谷歌有一篇发人深思的优秀论文,其中对这一过程有所描述--"大规模高可用性:打造谷歌的广告数据基础设施". 文中的主要观点是:在将单个数据中心切换到多个数据中心时,典型的故障转移架构在实践中效果并不太好.能够起到作用,使用较少资源就能提供高可用性和一致性的方法,是原生的多宿主/多重连接架构(natively multihomed architecture): 我们目前的方式是

数据中心网络故障维护策略分析

数据中心是由大量电子设备搭建起来的复杂信息系统,这些电子设备出现各种各样的故障是不可避免的,尤其是网络设备,就算是谷歌.脸谱.亚马逊等这些互联网巨头的数据中心也难免会发生不少故障.一旦网络设备出现故障,往往大面积的业务就会受到影响.一方面我们要增加网络设计的健壮性,关键节点部署冗余备份:另一方面要优化处理网络故障的手段,当出现网络故障时,如何快速恢复.并定位问题,消除隐患都需要诸多专业技术知识和丰富的网络经验,同时制定完善的故障处理流程,这样能大大缩短故障恢复的时间,同时还能有效找到故障原因,避

北亚案例:服务器RAID6数据恢复的过程

小编我最近参与了一例非常成功的数据恢复的案例,在这里分享给大家.用户是一组6块750G磁盘的 RAID6,先后有两块磁盘离线,但维护人员在此情况下依然没有更换磁盘,所以在第三块硬盘离线后raid直接崩溃了.由此导致数据全部丢失. 这台服务器是WEB服务器,运行MYSQL数据库,同时存放了大量其它文件,管理员在数据丢失后便第一时间寻求数据恢复公司的帮助,但是经过某公司的操作后仍有近一个月的文件损坏或丢失,MYSQL数据库也严重损坏.后来经其它运维人员的介绍,这位管理员同志就联系到了我们. 了解了故

数据中心SAN区域布线方案

在金融,保险,政券,政府机关等相应机构的数据中心中,为保证系统数据计算 的速度及数据存储与管理的可靠性,许多核心业务应用通常是由高性能的服务器设备如标准或非标小型机,大型机等所组成,与这些高性能服务器相配套的有单独的SAN存储网络.在这类设备区域布线方案的实施中,布线方案的实施要着重思考布线的可靠性.另外由于SAN  网络是设备间传输的内部高速传输网络,当前设备I/O 绝大多数是支持万兆的光纤传输,光纤支持万兆的传输距离与通道的衰减正反比,布线方案同时要思考尽可能小的整体通道衰耗,基于以上的思考

互联网数据中心频频故障给我们带来的启示

最近互联网故障是一件接着一件,仅在5月就发生了多起.网易的骨干网遇到攻击导致其游戏业务受到严重影响,由于传输光纤被挖断导致支付宝中断2小时,紧接着携程网由于人员误操作导致网络中断近12小时.从这些事件中不难看出,所有故障的产生都来自人为或者外部环境因素所导致,而不是数据中心设备本身.根据以往的统计数据也可以看出,数据中心发生的故障原因中人为因素占了80%.很多故障都是可以通过加强对人的管理而避免的,而并不是技术本身,导致数据中心故障的因素绝大部分来自外部而非自身,所以要保证数据中心稳定不间断运行

数据中心SAN 区域布线方案浅谈

在金融,保险,政券,政府机关等相应机构的数据中心中,为保证系统http://www.aliyun.com/zixun/aggregation/14206.html">数据计算 的速度及数据存储与管理的可靠性,许多核心业务应用通常是由高性能的服务器设备如标准或非标小型机,大型机等所组成,与这些高性能服务器相配套的有单独的SAN存储网络.在这类设备区域布线方案的实施中,布线方案的实施要着重思考布线的可靠性.另外由于SAN 网络是设备间传输的内部高速传输网络,当前设备I/O 绝大多数是支持万兆的