系统集成论坛

标题: 服务器RAID故障数据恢复 [打印本页]

作者: 思考的牛    时间: 2011-12-20 15:32
标题: 服务器RAID故障数据恢复
当RAID出现故障时,硬件厂商经常会初始化你的系统或重建(REBUILD)你的RAID,那么,会造成数据无法恢复的巨大损失,因此,当RAID出现故障时,一定要正确处理。

          RAID的目的就是利用磁盘空间的冗余实现数据容错,不过这是在所有的磁盘或卷没有任何问题的前提下实现的。当RAID卷中的单个磁盘出现故障后,尽管数据可能暂时不会受到威胁,但是磁盘冗余已经没有了。此时任何不当的操作都可能毁掉已经存放的数据。因此,在充分享受RAID所带来的安全好处时,还应该想到它危险的一面。
  RAID磁盘阵列设备,在使用过程中,经常会遇到一些常见故障,这也使得RAID在给我们带来海量存储空间的应用之外,也带来了很多难以估计的数据风险。本文将重点介绍RAID常见故障及相关处理方式。
  RAID故障注意事项
  1、数据丢失后,用户千万不要对硬盘进行任何操作,将硬盘按顺序卸下来(贴好标记),用镜像软件将每块硬盘做成镜像文件,也可以交给专业数据恢复中心进行。
  2、不要对Raid卡进行Rebuild操作,否则会加大恢复数据的难度。
  3、标记好硬盘在Raid卡上面的顺序。
  4、一旦出现问题,可以拨打专业公司(恩特尔数据恢复中心)的咨询电话找专业工程师进行咨询,切忌自己试图进行修复,除非你确信自己有足够的技术和经验来处理数据风险。
  常见Raid 数据丢失故障情况
  1、软件故障:
  a.突然断电造成RAID磁盘阵列卡信息的丢失。
  b.重新配置RAID阵列信息,导致的数据丢失。
  c.磁盘顺序出错,导致系统不能识别数据。
  d.误删除、误格式化、误分区、误克隆、文件解密、病毒损坏等情况,导致数据丢失。
  2、硬件损坏:
  a.raid硬盘报红灯错误,硬盘检测报错情况。
  b.raid硬盘出现坏道,导致数据丢失。
  c.raid一般都会有几块硬盘,同样有故障允许损坏的硬盘数量(如RAID5允许损坏其中一块),当超出损坏的硬盘数量后,RAID数据将无法正常读取。
  案例一
  2009年2月,某机械制造集团的网管拨打了恩特尔数据恢复中心的服务电话,该公司的一台服务器,不知为何突然无法启动,数据无法读取。该服务器是采用RAID 5的工作方式。恩特尔数据恢复中心的工程师根据用户的陈述初步判断是硬盘的排列顺序问题。这是一个五块75G的阵列服务器,要做这块硬盘数据,至少要有400G空间。
  恢复步骤如下:
  * 分别对每块硬盘进行镜像,不要在原盘进行操作,以免造成二次破坏。
  * 通过RAID算法计算RAID信息:数据存储开始位置、RAID存储块大小、硬盘的排列顺序、硬盘校验方式等参数。
  * 得到RAID信息,对硬盘镜像文件来进行组建恢复。(总用时可以在一个工作日内完成)。
  raid数据恢复注意事项
  在RAID有一基本概念称为EDAP ( Extended Data Availability and Protection ) ,其强调扩充性及容错机制,也是各家厂商如: Mylex,IBM,HP,Compaq,Adaptec,Infortrend等诉求的重点,包括在不须停机情况下可处理以下动作:
  RAID 磁盘阵列支援自动检测故障硬盘。
  RAID 磁盘阵列支援重建硬盘坏轨的资料。
  RAID 磁盘阵列支援支持不须停机的硬盘备援 Hot Spare。
  RAID 磁盘阵列支援支持不须停机的硬盘替换 Hot Swap。
  RAID 磁盘阵列支援扩充硬盘容量等。




欢迎光临 系统集成论坛 (http://bbs.xtjc.com/) Powered by Discuz! X3.1