别抱着服务器瞎重启,先搞清楚你用的是什么品牌的RAID卡。市面上主流的就是LSI系列、HP Smart Array、戴尔PERC这几个品牌,不同品牌要用不同的命令查看,找对工具才能一秒定位问题。
如果是LSI或者基于LSI方案的戴尔、浪潮RAID卡,直接用MegaCli工具就可以查状态。很多最小化安装的Linux默认不带这个包,你得先从官方源或者厂商官网下载安装。装上之后直接跑命令,就能看到整个阵列的健康状态,哪块盘掉线、掉盘的位置在哪,一眼就能看出来。
要是HP的服务器,就得用hpacucli或者新一代的ssacli工具,执行一条查询命令,就能把所有控制器、所有逻辑盘和物理盘的状态全列出来,标着Failed的就是出问题的盘,标着Degraded的就是阵列已经降级了,这时候就得马上处理。
很多人碰到RAID故障第一反应就是重新初始化阵列,这绝对是找死!初始化会直接清掉整个阵列的配置信息,原本只是单盘掉线,这下直接把所有数据都搞没了,找恢复都救不回来。
只要服务器还能进系统,先把重要数据做完整备份再操作,哪怕备份要花几个小时,也比直接乱操作丢数据强一万倍。
碰到阵列整个找不到,系统识别不到逻辑盘的情况,先别慌。先关机检查硬件,看看RAID卡是不是松了,背板的数据线有没有掉,有没有哪里明显的烧焦味道。如果是RAID卡意外掉电导致配置丢失,很多卡都有备份的配置信息在硬盘上,找对工具就能直接导入原有配置,不需要重建阵列