机房突然断电导致整个存储瘫痪,加电后存储依然无法使用。经过用户方工程师诊断后认为是断电导致存储阵列损坏。
整个存储是由12块日立硬盘(3T SAS硬盘)组成的RAID-6磁盘阵列,被分成一个卷,分配给几台Vmware的ESXI主机做共享存储。整个卷中存放了大量的Windows虚拟机,虚拟机基本都是模板创建的,因此系统盘都统一为160G。数据盘大小不确定,并且数据盘都是精简模式。
二、备份服务器数据
将故障存储的所有磁盘和备份sss数据的目标磁盘连入到一台Windows Server 2008的服务器上。故障磁盘都设为脱机(只读)状态,在专业工具WinHex下看到连接状态如下图所示:(图中HD1-HD12为目标备份磁盘,HD13-HD24为源故障磁盘,型号为HUS723030ALS640):
图一:
使用WinHex 对HD13-HD24以底层方式读取扇区,发现了大量损坏扇区。初步判断可能是这种硬盘的读取机制与常见的硬盘不一样。尝试更换操作主机,更换HBA卡,更换扩展柜,更换为Linux操作系统,均呈现相同故障。与用户方工程师联系,对方回应此控制器对磁盘没有特殊要求。
使用专业工具对硬盘损坏扇区的分布规律进行检测,发现如下规则:
1、损坏扇区分布以256个扇区为单位。
2、除损坏扇区片断的起始位置不固定外,后面的损坏扇区都是以2816个扇区为间隔。
所有磁盘的损坏扇区分布如下表(只列出前3个损坏扇区):
ID号 | 硬盘序列号 | 第1个损坏扇区 | 第2个损坏扇区 | 第3个损坏扇区 |
13 | YHJ7L3DD | 5376 | 8192 | 11008 |
14 | YHJ6YW9D | 2304 | 5120 | 7936 |
15 | YHJ7M77D | 2048 | 4864 | 7680 |
16 | YHJ4M5AD | 1792 | 4608 | 7424 |
17 | YHJ4MERD | 1536 | 4352 | 7168 |
18 | YHJ4MH9D | 1280 | 6912 | 9728 |
19 | YHJ7JYYD | 1024 | 6656 | 9472 |
20 | YHJ4MHMD | 768 | 6400 | 9216 |
21 | YHJ7M4YD | 512 | 6144 | 8960 |
22 | YHJ632UD | 256 | 5888 | 8704 |
23 | YHJ6LEUD | 5632 | 8448 | 11264 |
24 | YHHLDLRA | 256 | 5888 | 8704 |