公司的Dell R720XD服务器是用来做Hadoop大数据的。
其中有两块300G的硬盘做Raid1,作为系统盘。
剩下3块硬盘是4TB,都是独立的,没有做任何Raid,单独做数据盘。
但是,这三块硬盘都被 Dell H330 的Raid控制器控制,于是3块硬盘呢,其实每个都是个单独的 Raid0
去机房巡检的过程中,发现一个硬盘亮黄灯。
从idrac口可以看到坏了个硬盘
问题来了,三块啊,到底是哪块坏了呢?
注意上图,修订是:GS0F,序列号是:Z1Z83DXH
我了个擦,所有硬盘都被h330接管,所以lspci什么也看不出来,只能看出是个lsi的MegaRAID!!!
1lspci|grep Mega
202:00.0 RAID bus controller: LSI Logic / Symbios Logic MegaRAID SAS-3 3008 [Fury] (rev 02)
没办法,先去下个MegaCLI吧: MegaCli.tgz
1cd /opt/MegaRAID
2tar zxvf MegaCli.tgz
再下个python, mega-status.py
1chmod 755 mega-status.py
2./mega-status.py
注意这个脚本是引用了64位的megacli
1def_megaclipath = "/opt/MegaRAID/MegaCli/MegaCli64"
看运行结果啊
这里把修订和序列号连在一起了: GS0FZ1Z83DXH 对应c0u2p0,对应上面的c0u2,对应右边的/dev/sdc
所以是/dev/sdc坏掉了。
搞定。
这样就可以先卸载/dev/sdc,然后换盘了。