IBM服务器raid5崩溃数据恢复方案及过程

概述:

    IBM X3850服务器,5块73G SAS硬盘,其中4块组成一个RAID5,另一块做为热备盘(Hot-Spare),3号盘早已经离线,但热备盘未自动激活rebuild(原因不明),之后2号盘离线,RAID崩溃。

    操作系统为linux redhat 5.3,应用系统为构架于oracle的一个oa,数据重要,时间很急。因oracle已经不再对本oa系统提供后续支持,用户要求尽可能数据恢复+操作系统复原。热备盘完全无启用,硬盘无明显物理故障,无明显同步表现。数据通常可恢复

【恢复方案】

    1、保护原环境,关闭服务器,确保在恢复过程中不再开启服务器。

    2、将故障硬盘标好序号,确保在拿出槽位后可以完全复原。

    3、将故障硬盘挂载至北亚数据恢复备份服务器环境下,对所有故障硬盘做完全镜像。备份完成后交回原故障盘,之后的恢复操作直到数据确认无误前不再涉及原故障盘。

    4、对备份盘进行RAID结构分析,得到其原来的RAID级别,条带规则,条带大小,校验方向,META区域等。

    5、根据得到的RAID信息搭建一组虚拟的RAID5环境。

    6、进行虚拟磁盘及文件系统解释。

    7、检测虚拟结构是否正确,如不正确,重复4-7过程。

    8、确定数据无误后,按用户要求回迁数据。如果仍然使用原盘,需确定已经完全对原盘做过备份后,重建RAID,再做回迁。回迁操作系统时,可以使用linux livecd或win pe(通常不支持)等进行,也可以在故障服务器上用另外硬盘安装一个回迁用的操作系统,再进行扇区级别的回迁。

9、数据移交后,由北亚数据恢复中心延长保管数据3天,以避免可能忽略的纰漏。

数据恢复及系统复原过程

    1、对原硬盘进行完整镜像,镜像后发现2号盘有10-20个坏扇区,其余磁盘,均无坏道。

    2、分析结构:得到的最佳结构为0,1,2,3盘序,缺3号盘,块大小512扇区,backward parity(Adaptec),结构如下图:

 图一

    3、组好后数据验证,200M以上的最新压缩包解压无报错,确定结构正确。

    4、直接按此结构生成虚拟RAID到一块单硬盘上,打开文件系统无明显报错。

    5、确定备份包安全的情况下,经客户同意后,对原盘重建RAID,重建时已经用全新硬盘更换损坏的2号盘。将恢复好的单盘用USB方式接入故障服务器,再用linux SystemRescueCd启动故障服务器,之后通过dd命令进行全盘回写。

    6、回写后,启动操作系统。正常情况下,这时候所有工作应该完成了。不巧的是,因帮颇费周折才解决,特意另起一段叙述。

 

系统复原过程:

    dd所有数据后,启动操作系统,无法进入,报错信息为:/etc/rc.d/rc.sysinit:Line 1:/sbin/pidof:Permission denied  

    怀疑此文件权限有问题,用SystemRescueCd重启后检查,此文件时间,权限,大小均有明显错误,显然节点损坏。

    重新分析重组数据中的根分区,定位出错的/sbin/pidof/datahf.net,发现问题因2号盘坏道引起。

    使用0,1,3这3块盘,针对2号盘的损坏区域进行xor补齐。补齐后重新校验文件系统,依然有错误,再次检查inode表,发现2号盘损坏区域有部分节点表现为(图中的55 55 55部分):

 图二 

    很明显,虽然节点中描述的uid还正常存在,但属性,大小,以最初的分配块全部是错误的。按照所有可能进行分析,确定无任何办法找回此损坏节点。只能希望修复此节点,或复制一个相同的文件过来。

    对所有可能有错的文件,均通过日志确定原节点块的节点信息,再做修正。

    修正后重新dd根分区,执行fsck -fn /dev/sda5/datahf.net,进行检测,依然有报错,如下图:

 图三

    根据提示,在系统中发现有多个节点共用同样的数据块。按此提示进行底层分析,发现,因3号盘早掉线,帮存在节点信息的新旧交集。

    按节点所属的文件进行区别,清除错误节点后,再次执行fsck -fn /dev/sda5,依然有报错信息,但已经很少。根据提示,发现这些节点多位于doc目录下,不影响系统启动,于是直接fsck -fy /dev/sda5/datahf.net强行修复。

    修复后,重启系统,成功进入桌面。

    启动数据库服务,启动应用软件,一切正常,无报错。

    到此,数据恢复及系统回迁工作完成。

时间: 2024-08-11 00:40:10

IBM服务器raid5崩溃数据恢复方案及过程的相关文章

IBM x3850 RAID5数据恢复方案及过程

第一部分:数据恢复方案 [用户单位]   某医药公司 [故障描述] IBM X3850服务器,5块73G SAS硬盘,其中4块组成一个RAID5,另一块做为热备盘(Hot-Spare),3号盘早已经离线,但热备盘未自动激活rebuild(原因不明),之后2号盘离线,RAID崩溃. 操作系统为linux redhat 5.3,应用系统为构架于oracle的一个oa,数据重要,时间很急.因oracle已经不再对本oa系统提供后续支持,用户要求尽可能数据恢复+操作系统复原. [初检结论] 热备盘完全无

IBM服务器 RAID5 阵列卡配置教程_服务器其它

开机或重启服务器   界面运行到如下图这样时,按Ctrl + H 键   进入下面界面,点击Start按钮   点击 Clear按钮,清除之前的阵列   点击Yes按钮   选择Configuration Wizard   点击下一步 Next按钮   继续下一步   选中左边框中的,依次所有检测到的硬盘,然后点击Add To Array添加到右侧群组   都添加到右侧后,点击Accept DG按钮   然后点击下一步   点击 Add to SPAN    然后下一步   点击Accept按钮

服务器 raid5数据丢失的恢复过程

第一部分:数据恢复方案 [用户单位]某医药公司 [故障描述] IBM X3850服务器,5块73G SAS硬盘,其中4块组成一个RAID5,另一块做为热备盘(Hot-Spare),3号盘早已经离线,但热备盘未自动激活rebuild(原因不明),之后2号盘离线,RAID崩溃. 操作系统为linux redhat 5.3,应用系统为构架于oracle的一个oa,数据重要,时间很急.因oracle已经不再对本oa系统提供后续支持,用户要求尽可能数据恢复+操作系统复原. [初检结论] 热备盘完全无启用,

IBM服务器ServerRaid盘组意外失效修复实践

在我们实际使用IBM服务器的时候,当ServerRAID发生故障是往往会导致逻辑盘掉线,下面的处理方法为IBM工程师提供,供大家在实际解决阵列时参考,http://www.aliyun.com/zixun/aggregation/7432.html">解决问题主要看思路,思路正确,只要不是11585.html">硬件设备损坏,我想应该是可以解决的,好了我们先来看一下解决的步骤吧. 1.由于逻辑盘已经掉线,如果硬盘数据很重要的话,务必联系专业的数据备份公司,替您备份出数据2.

AIX下删除LV后的现场保护和数据恢复方案

在AIX环境下,因维护误操作.存储mapping错误等,不小心将LV误删除,这种损失通常是巨大的.删除后的不当保护及恢复操作可能使数据无法恢复,也可能增加处理的时间与算法复杂度.如何有效保护现场,并选择正确的数据恢复方案是非常重要的. AIX的存储层有太多文章描述,做为铺垫,简要描述一下.PV相当于物理磁盘(对于存储,是存储映射过来的卷,对于操作系统而言,等同于物理硬盘),若干个PV组成一个VG,意味着可以将容量不同的存储空间合起来统一分配.为了实现这个目的,AIX把同一个VG的所有PV按相同大

AIX下删除LV后的现场保护方法和数据恢复方案

在AIX环境下,若因维护误操作.存储mapping错误等,不小心将LV误删除,这种损失通常是巨大的.删除后的不当保护及恢复操作可能使数据无法恢复,也可能增加处理的时间与算法复杂度.如何有效保护现场,并选择正确的数据恢复方案是非常重要的. AIX的存储层有太多文章描述,做为铺垫,简要描述一下.PV相当于物理磁盘(对于存储,是存储映射过来的卷,对于操作系统而言,等同于物理硬盘),若干个PV组成一个VG,意味着可以将容量不同的存储空间合起来统一分配.为了实现这个目的,AIX把同一个VG的所有PV按相同

银行弃用IBM服务器,国产品牌能否挑起大梁??

只有掌握了核心技术,才不会被人牵着鼻子走.而我国在大型服务器研发技术上的落后却已悄然给国家安全埋下一颗定时炸弹,酝酿着一场空前的躁动. 近日,为进一步应对中美关系日趋僵化所引发的间谍冲突和网络安全问题,中国政府开始公开呼吁国内银行放弃使用美国IBM公司生产的服务器改用国产品牌.这一消息乍一听起来不免让人觉得唐突,却也是情有可原. 由于我国在金融.电信.能源等关键领域对大型服务器的依赖度非常高,特别是银行,电信业每天数以亿计的交易量,如此庞大的数据吞吐量必须要有强大功能的服务器支撑.而国产服务器近

IBM服务器优化和集成服务-服务器整合效率研究

为抑制服务器蔓延和 IT 复杂性而努力即使使用拟定的最佳计划,复杂性也可能在公司的 IT 基础架构中无处不在. 可能的问题原因包括并购.新应用程序的引入.始料不及的发展.全球化规范需求.新法规和组织的高压攻势. 通常,复杂性表现为服务器蔓延: 您的数据中心得到发展,是由于起初增加几个服务器即能满足高峰期需求比重新检查整个基础架构更便宜.更容易. 然而最终,蔓延可能成为主要的罪魁祸首 - 随总体拥有成本 (TCO) 而增加实际成本,而且最重要的一点是减少了改革回应力和把握创新的机会.实际上,整合成

浪潮公布I2I计划 接盘IBM服务器业务争市场

[天极网服务器频道5月28日消息]5月27日,在浪潮2014创新数据中心全国巡展的首站浪潮集团大本营济南,浪潮首度公布一项内部市场计划"I2I"(IBM to Inspur),旨在通过产品.渠道.服务的全方位发力,全面接盘IBM服务器业务的客户和BP(Business Partner),加速推进中国服务器市场NO.1目标的达成. "I2I"计划是浪潮针对IBM市场.IBM营销体系展开的全面渗透.切入.接管的一项市场推进计划,涉及通用服务器.主机系统.云计算大数据.高