Comment les données sont-elles récupérées lorsqu'une grappe RAID tombe en panne

2

Je pense utiliser un RAID matériel (niveaux 5 et 10) sur mes ordinateurs. Ce que je ne comprends pas, c'est comment les données sont récupérées lorsque quelque chose se passe mal et que la matrice RAID tombe en panne (problème de carte RAID ou autre).

Lorsque vous utilisez des disques autonomes, le processus est très simple, mais que faire en cas d'échec d'une matrice RAID, comment peut-on réparer la matrice et reprendre le travail; et comment récupérer les données d'une matrice RAID. puisque nous ne pouvons pas simplement sortir le lecteur et le brancher sur un autre ordinateur.

— udi
source

1

Généralement, cela ne vaut pas la peine de déranger. Vous venez de construire une nouvelle matrice RAID à partir d'une sauvegarde. Si vous utilisez RAID, votre objectif est vraisemblablement de minimiser les temps d'arrêt, et perdre du temps à la récupération vous blesse plus qu'il ne vous aide.

— David Schwartz

3

Lorsqu'un disque meurt dans un RAID HW, vous le retirez et en branchez un nouveau. Une reconstruction automatique a lieu. Dans certains cas, vous devrez peut-être utiliser l'interface graphique ou l'interface de la carte pour signaler à la carte qu'un lecteur a été remplacé. Le RAID est bien entendu opérationnel pendant tout l'exercice.

Si votre carte RAID meurt, c'est beaucoup plus difficile. Tu devrais avoir une réserve. Sinon, vous en achetez un auprès de votre fournisseur. Si ce n'est plus en production, vous allez chercher frénétiquement sur eBay pour un utilisé.

Si vous ne parvenez même pas à en trouver un déjà utilisé, vous devrez alors procéder au reverse engineering du format sur disque et à l'écriture de code pour le récupérer. Vous aurez peut-être de la chance et constaterez qu’il est stocké dans un format assez standard. Vous le faites vous-même ou vous payez beaucoup à une entreprise de récupération de données.

Dans cette optique, un logiciel SW RAID est plus évolutif, car le logiciel lui-même ne sera pas interrompu dans le temps et le matériel de base peut être facilement remplacé.

Cependant, SW RAID5 ne peut pas être rendu totalement résistant aux pannes de courant. C'est le gros avantage des HW RAID: ils peuvent être équipés d'une mémoire sauvegardée sur batterie et ainsi être parfaitement protégés en tirant.

— Vojtech
source

Autre facteur: selon mon expérience, un écran bleu (ou tout autre arrêt incorrect) associé à un raid logiciel provoque la défaillance et la reconstruction du lecteur, même en l'absence d'écriture en attente.

— Loren Pechtel

Oui, une panne système ou le fait d'appuyer sur le bouton de réinitialisation endommagera la matrice RAID SW de la même manière qu'une panne de courant. La seule façon dont le logiciel SW RAID peut gérer un arrêt brutal est de sérialiser complètement toutes les écritures, en sacrifiant tout le gain de performances résultant de la création de plusieurs lecteurs. Les RAID logiciels plus intelligents, comme le MDRAID Linux, proposent certaines astuces, notamment une carte d'intention d'écriture, pour limiter les dégâts et ne reconstruire qu'une très petite partie de la matrice. Les HW RAID gèrent les arrêts brusques avec élégance.

— Vojtech

Voici un point important à retenir: Le RAID n'est pas une solution de secours . Répétez cela 10 fois pour qu'il entre en ligne de compte. 1. Augmentation de la performance. 2. Protection contre une défaillance du disque (tolérance aux pannes). Lorsque vous avez une configuration RAID, vous devez toujours effectuer des sauvegardes. Comme le dit Vojtech: si vous avez une ancienne carte RAID difficile à remplacer, vous pourriez être mort dans l’eau sans une copie de sauvegarde.

— Charles Burge

0

Votre question concerne la récupération après incident matériel. Vous examinez donc les fonctionnalités que la carte d’accès matériel / contrôleur fournit pour vous.

un BIOS, dans lequel vous pouvez entrer avant le démarrage du système d'exploitation. La configuration peut être faite ici.
Un processeur ou autre "accellerator" qui s'occupe de gérer le raid et de décider où les lectures / écritures sont dirigées.
Un schéma permettant d'identifier quel disque physique appartient à quelle partie du RAID.
Un moyen de vous informer sur l'état du RAID.

Votre carte RAID sera livrée avec des pilotes et des logiciels pris en charge sous votre système d'exploitation vous permettant d'effectuer la gestion de la configuration et de l'état sans devoir redémarrer dans ce BIOS.

Pour le matériel serveur, les lecteurs eux-mêmes sont sur des chariots remplaçables à chaud avec des voyants supplémentaires. Celles-ci vous fournissent un retour physique si le contrôleur détecte un problème avec le RAID.

Pour les ordinateurs de bureau, vos lecteurs sont câblés sur la carte RAID ou la carte mère.

Le pilote et le logiciel de votre système d'exploitation peuvent également le détecter et vous alerter d'une autre manière (courrier électronique, etc.).

Une fois qu'un disque a mal tourné, le contrôleur arrête de lire et d'écrire dessus, en s'appuyant sur les disques restants pour servir les données. Cela s'appelle un état dégradé, vous travaillez toujours, mais un autre échec vous pousse au bord de la perte de données. (2 échecs supplémentaires si vous utilisez RAID 6)

Pour un contrôleur RAID remplaçable à chaud, vous devez simplement extraire le lecteur en panne et en insérer un vierge.

Comment sait-il qu'il est vide? C'est le travail du schéma (3). Tous les lecteurs ont des données inutilisées au début, la table de partition a beaucoup d’espace libre. Chaque fabricant l'utilisera différemment, mais c'est ici que le contrôleur de raid stockera des données lui indiquant quel lecteur appartient à quelle partie du raid.

Une fois qu'il voit un nouveau lecteur qui n'a pas encore été utilisé par cette carte RAID, il peut démarrer le processus de restauration.

Cela peut être automatique ou déclenché par l'utilisateur, et peut bien sûr effacer complètement le contenu du nouveau disque s'il était déjà formaté pour autre chose.

La récupération ou la reconstruction est gérée en arrière-plan par le contrôleur RAID, il lit chaque secteur à partir des lecteurs restants et calcule ce qui devrait être sur chaque secteur pour le nouveau lecteur. Pour RAID 1, il suffit de copier tous les secteurs du bon disque existant vers le nouveau disque. Pour RAID 5 ou 6, tous les lecteurs existants sont lus et les données à écrire sur le nouveau lecteur peuvent être calculées. Étant donné que ce travail accède aux lecteurs restants, vous pouvez généralement définir une priorité pour ce travail, afin de ne pas ralentir l'ensemble du système.

Cependant, vous devez déterminer si la rapidité de récupération du statut RAID total est plus importante que les travaux en cours. Certains contrôleurs, par exemple Pour ceux qui sont intégrés à une carte mère de bureau ordinaire, vous devrez peut-être accéder au BIOS pour déclencher la reconstruction à cet emplacement et ne pas vous permettre de démarrer dans le système d’exploitation jusqu’à ce qu’il soit à nouveau prêt. Ce serait un inconvénient, et ce ne serait pas un bon raid HW, car vous voulez une disponibilité et une résilience face à l'échec.

Une carte de raid HW autonome vous donnera l’opportunité d’une reconstruction qui n’affectera pas votre capacité à continuer à travailler.

Si la panne est dans la carte RAID elle-même: L'ordinateur / le serveur sera probablement tombé en panne et n'est pas amorçable. A ce stade, vous pouvez supposer que les lecteurs eux-mêmes sont toujours viables, mais il est plus probable que les lecteurs soient dans un état incohérent, c'est-à-dire que les écritures sur un lecteur n'ont pas été entièrement propagées sur d'autres lecteurs. Vous êtes à la merci du système d'exploitation et de son système de récupération sur erreur du système de fichiers pour cela. Le pire des cas est que vous devez récupérer les données d'une sauvegarde après avoir réparé l'ordinateur / le serveur. Si la carte RAID est remplaçable, un modèle identique peut être installé à sa place. Etant donné que les lecteurs individuels signalent toujours la même identification de la même manière que la carte RAID, l'ensemble complet des lecteurs fonctionnera comme avant sans perte complète des données (bien que des incohérences du système de fichiers puissent exister). Si le contrôleur RAID faisait partie d'une carte mère, vous devez remplacer l'intégralité de la carte mère par une autre avec le même modèle de contrôleur RAID. Si vous essayez d'utiliser une marque de contrôleur RAID différente, il est fort probable qu'il ne reconnaisse pas les disques et vous demande simplement comment vous souhaitez les configurer à nouveau, ce qui effacera toutes les données existantes.

Dans les serveurs HP, tous les modèles de contrôleurs RAID intégrés et plug-ins partagent le même schéma d'identification du disque. Il est donc préférable de remplacer un contrôleur intégré par un plug-in ou un plug-in avec un plug-in plus puissant. modèle est possible sans perte de données.

Dans les deux cas, vous devez également veiller à ce que le firmware de la carte RAID de remplacement soit mis à jour vers la même version ou une version plus récente de celle à remplacer.

Encore une fois, avec les serveurs HP, un serveur est mort, puis je tire l’ensemble des disques d’un RAID et les branche dans des emplacements vides d’un nouveau serveur (déjà sous tension), et les données sont immédiatement visibles.

— Tomuo
source

1

Cela n'explique pas comment les données sont récupérées à partir d'une matrice RAID

— Ramhound

Je suis d'accord avec Ramhound. Dans votre réponse, vous avez couvert le cas d’un disque défectueux remplacé. La question est plutôt: que faire avec un ensemble complet de disques sains lorsque le contrôleur meurt?

— Kamil Maciorowski

Mise à jour avec scénario pour échec de carte.

— Tomuo

0

Avec RAID 5, vous avez toujours un "volume de parité". Ceci est un abus de langage, car les données de parité sont en réalité réparties entre les lecteurs, mais vous avez toujours un lecteur de plus que le nombre que vous auriez prévu pour la capacité voulue. Appeler n pour le nombre de disques dont vous auriez besoin sans redondance, donc n +1 est le nombre que votre tableau RAID 5 prendra.

Le concept RAID 5 est que tout n les lecteurs hors de l'ensemble contiendront toujours suffisamment de données pour reconstruire le contenu d'un lecteur en panne.

La façon dont la parité permet que cela se produise est similaire au concept de "total de lot" dans les données comptables. Si j'ai un tas de transactions à entrer dans un système, je peux bien calculer un total pour le lot avant de le passer à la saisie de données. Le programme de saisie de données nécessite la saisie du total de lot calculé, puis de toutes les transactions. Le programme calcule la somme des transactions et le compare au total des lots que j'ai calculé séparément. S'ils sont différents, quelque chose ne va pas. La personne chargée de la saisie vérifie donc les détails.

Pour étendre cela au RAID 5, imaginez que nous ayons un moyen de savoir si l’une des transactions - ou le total du lot, en fait - a été mal entrée (ou est illisible). Si une seule entrée est fausse, alors nous pouvons reconstruire cette entrée avec une simple arithémétique: Soustrayez tous les nombres que nous avons du total, et il y aura le nombre manquant.

Heureusement pour nous, il est très difficile pour un secteur défectueux sur un disque dur d'être "lu" sans indication d'erreur.

Pour mieux comprendre le fonctionnement du volume de parité, considérons une seule paire de bits dans vos données "utilisateur final". Disons les deux premiers bits d’un secteur présentés par le volume RAID 5. Nous stockons l'un de ces bits sur le lecteur A et l'autre sur le lecteur B. Sur le lecteur C, qui est le "volume de parité" pour ces bits particuliers, nous stockons un bit représentant le "OU exclusif" des deux autres bits. La fonction "OU exclusif" est simplement la somme des bits, avec carry ignoré .

Une autre façon de le dire est que le XOR de n'importe quel nombre de bits sera 1 si le nombre de "1" bits dans l'entrée est impair, et sera 0 si le nombre de "1" bits dans l'entrée est pair. La valeur de cette fonction "XOR" correspond à ce qui est stocké dans le "volume de parité". Voici ce que cela nous donne pour deux bits d'entrée:

    A B   XOR(A,B)
   ----------------
    0 0      0
    0 1      1
    1 0      1
    1 1      0

Maintenant, si nous perdons l'un des bits - l'un quelconque des trois, même le XOR -, nous pouvons le reconstruire à partir des données dont nous disposons, tant que nous savons quel bit est erroné - ou manquant.

Et je le répète: la correction d'erreur et la vérification au sein des disques durs sont très utiles à cet égard. Il est configuré de manière à ce que, même si les erreurs corrigées se produisent régulièrement, les erreurs impossibles à corriger et non détectées sont extrêmement rares. Au milieu, nous avons des erreurs non corrigibles mais détectées, et nous avons également le cas où le lecteur tombe en panne et ne lit rien (ou le lecteur est complètement manquant). Ces cas "intermédiaires" sont beaucoup plus courants que les erreurs non corrigibles + non détectables, et ce sont les cas protégés par RAID 5. Nous pouvons reconstruire les données manquantes ou mauvaises à partir des données dont nous disposons, simplement en calculant le XOR - la parité - des bits que le lecteur nous dit encore lisibles et bons.

— Jamie Hanrahan
source