DL380 G5, RAID5, ext3, RAID Failed


9

Nous avons un ancien serveur HP DL380G5, avec 5 disques SCSI 3,5 '' de 300 Go dans une matrice RAID5, dans une baie externe, formaté comme un volume logique avec un système de fichiers ext3, qui héberge 1,2 To de données sensibles sur les patients cliniques.

Deux disques ont montré une défaillance prédictive dans hpacucli, j'ai donc remplacé l'un d'entre eux en premier, et j'ai vu que c'était OK, mais je n'ai pas vu qu'il indiquait également "Prêt pour la reconstruction". J'ai également changé le deuxième de façon totalement imprudente, et maintenant il est dit que le RAID est ÉCHEC.

J'ai retourné l'ancien disque, j'ai essayé de redémarrer le serveur, mais il me met maintenant en mode de récupération pendant le démarrage et dit qu'il ne peut pas trouver le volume logique.

Que puis-je faire pour essayer de restaurer cela? Nous n'avons malheureusement pas de sauvegarde. Toute aide serait vraiment appréciée!

Je pensais à retourner les deux anciens disques, y a-t-il une chance que cela ravive le RAID?


Les commentaires ne sont pas pour une discussion approfondie; cette conversation a été déplacée vers le chat .
Michael Hampton

4
J'imagine que votre groupe va commencer à faire des sauvegardes maintenant. Si c'était une question de nécessité ou de coût, ce devrait être un coup de semonce assez clair.
Jonathon Reinhart

Réponses:


25

Je suis désolé. Mais c'est une erreur d'opérateur.

Vous aviez deux disques défaillants sur une matrice RAID5 et vous avez retiré plus de disques que la baie ne pouvait en contenir.

Faire cela sans aucune sauvegarde est la plus grosse erreur.

Vous devez contacter une entreprise de récupération de données pour tenter de récupérer les données du lecteur logique cassé.


1
On dirait qu'il sait que c'est une erreur d'opérateur… Ce n'est pas une raison pour ne pas demander ce qu'il peut faire maintenant
StarWeaver

@StarWeaver Oui ... contacter une entreprise de récupération de données est la prochaine étape appropriée.
ewwhite

11

Ne rallumez pas le système. Arrêtez-le, appelez un service de récupération de données. Il existe un certain nombre de services qui permettent la récupération à distance de ce type de défaillance. À ce stade, tout ce que vous pouvez faire est de l'aggraver.

Cela implique souvent de connecter tous les disques directement à un HBA reconnu (pas une carte RAID ou un autre contrôleur!) Et de démarrer une image Linux téléchargeable spécifique avec des outils de gestion à distance. La société accède ensuite à distance au système, évalue l'état du disque et récupère toutes les métadonnées RAID restantes. À l'aide d'un logiciel propriétaire, ils peuvent réassembler un disque RAID virtuel (détail technique: souvent quelque chose qui se branche sur le système standard de mappage de périphériques Linux). Cela expose ensuite le logiciel RAID en lecture seule (sans accélérateur RAID SoC). Les étapes suivantes consistent à vérifier que les données ne sont pas corrompues au-delà de leur utilisation et à cloner le disque virtuel sur un nouveau disque pour terminer la récupération des données. Après cela, vous pouvez vous soucier de remettre le système en marche.

Bien que je ne vais pas nommer de services ici, la plupart d'entre eux sont faciles à trouver, et pour ceux avec des services à distance (vous épargnant ainsi l'aller-retour d'expédition des disques RAID + disque de récupération et en attendant la récupération + clone et puis les renvoyer), vous bénéficiez des données qui ne quittent jamais votre établissement.


Une petite bonne nouvelle: tant que le contrôleur RAID (ou vous) n'a écrit aucune nouvelle donnée sur aucun des disques, et que l'avertissement de pré-échec n'est pas un avertissement d'échec, il y a pratiquement une chance de 99,9999% une bonne équipe de récupération de données peut tout restaurer, et assez rapidement aussi.


5

Re: restauration des anciens disques.

Étant donné que votre RAID est complètement mort en l'état, vous avez peu à perdre en réinstallant les deux disques de pré-échec.

Installez-les dans les baies d'origine.

N'oubliez pas qu'ils sont pré-échec et non échec, il y a donc de fortes chances qu'ils s'exécutent assez longtemps pour sauver vos données.

Il y a une chance que le raid ne se produise tout simplement pas, et une petite chance que le contrôleur demande de "réinitialiser" le raid (choisissez NO / CANCEL) et une toute petite chance que le contrôleur de raid réinitialise automatiquement le raid, ce qui annulerait toute valeur ajouté par une entreprise de récupération de données.

Donc, votre priorité absolue si le RAID arrive, est de retirer les données. Cela signifie avoir au moins 1,2 To d'espace disponible et prêt à copier les données, et un outil comme robocopyou xcopy32ou dans votre cas Linux rsync prêt à fonctionner. Vous ne voulez pas perdre de temps à lire les pages de manuel et à trouver la syntaxe si vos disques perdent leurs dernières minutes.


Une fois vos données en sécurité, recréez le raid en tant que raid6 avec les nouveaux disques. Vous perdrez 300 Go de capacité, mais vous gagnerez une tolérance de deux disques. Ou ajoutez un disque supplémentaire et envisagez un raid10 sur 6 disques. Ou envisagez de retirer complètement cette machine; le G5 a plus de 10 ans et n'est vraiment plus adapté aux tâches de production importantes.

Et n'essayez pas de mettre le démarrage, mais configurez également une solution de sauvegarde appropriée. Il y aura une prochaine fois.


2
Juste pour clarifier - il y a une chance faible mais non nulle que cela rendra plus difficile pour toute entreprise commerciale de récupération de données de réussir à vous aider. Personnellement, j'essaierais de remonter le raid, et si cela ne fonctionne pas, faites le point.
Criggie
En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.