J'ai une triste matrice RAID sur une carte 3ware 9650SE-16ML. Ce que je ne peux pas dire, c'est si je viens de subir une panne de double disque (bummer!) Ou si je lis mal. La sortie relavent de /c0 show all
est:
Port Status Unit Size Blocks Serial
---------------------------------------------------------------
p0 DEGRADED u0 931.51 GB 1953525168 5QJ07MAH
p1 ECC-ERROR u0 931.51 GB 1953525168 5QJ0DCW9
p2 OK u0 931.51 GB 1953525168 5QJ0DW9C
p3 OK u0 931.51 GB 1953525168 5QJ0CKXJ
Et l'échec est (de show alarms
):
Ctl Date Severity Alarm Message
------------------------------------------------------------------------------
c0 [Sun Nov 20 07:47:23 2011] INFO Rebuild started: unit=0
c0 [Sun Nov 20 08:20:12 2011] ERROR Drive ECC error reported: port=1, unit=0
c0 [Sun Nov 20 08:20:12 2011] ERROR Source drive error occurred: port=1, unit=0
c0 [Sun Nov 20 08:20:12 2011] ERROR Rebuild failed: unit=0
c0 [Sun Nov 20 08:20:12 2011] INFO Rebuild paused: unit=0
Je pense que ce qui s'est passé est p0 a échoué, puis p1 a eu une erreur ECC (aka, mes données ont disparu). Mais ... peut-être pas? Il reste à 97% reconstruit, mais ne peut pas surmonter cette erreur.
Pour autant que je sache, un administrateur précédent a désactivé la vérification périodique, ce qui nous a mis dans cet état. Ce n'est pas quelque chose dont la plupart des gens devraient s'inquiéter avec leurs RAID 3Ware!
Mettre à jour
Après avoir battu dessus pendant quelques jours, j'ai fait le bit IgnoreECC et il a reconstruit, mais mes données sont arrosées. Bummer.