Comment récupérer d'une panne de disque dans une configuration RAID 5?


15

Ce matin, un lecteur est tombé en panne sur notre serveur de base de données. La matrice de disques (3 disques) est installée dans une configuration RAID 5.

Pendant que nous attendons le remplacement du lecteur, nous nous préparons pour une stratégie de récupération. Les utilisateurs continuent de travailler sur le système, quoique très lentement (je ne sais pas pourquoi ??).

Comment installer le nouveau lecteur - les données de ce lecteur seront-elles automatiquement reconstruites à partir de la parité ou existe-t-il un autre processus que nous devrions suivre?

Edit: il s'agit d'un contrôleur RAID matériel. (Merci pour les réponses jusqu'à présent, apprécié)


4
Soit dit en passant, le moment de décider quoi faire en cas de panne d'un lecteur sur un serveur critique est avant qu'un lecteur tombe en panne sur un serveur critique.
David Schwartz

Réponses:


15

Le système fonctionne très lentement car il doit reconstruire les données manquantes, ce qui implique un processeur et des E / S supplémentaires.

Si vous avez un disque manquant dans une configuration RAID-5, vous n'avez aucune stratégie de récupération . Si un autre disque tombe en panne, vous perdrez vos données . Courez, ne marchez pas, chez le fournisseur le plus proche où vous pouvez obtenir une pièce compatible couverte par la garantie du fabricant expédiée par un service de messagerie le jour même. Si le fournisseur auprès duquel vous avez acheté la baie est déjà en train d'obtenir la pièce, procurez-vous les deux pièces et rangez l'autre comme pièce de rechange.

Si un RAID-5 est utilisé pour un système de production, vous devriez envisager de laisser un disque de rechange dans la baie en tant que disque de secours.

Ajouté - Si vos journaux ne se trouvent pas sur un volume séparé (disques physiquement séparés), déplacez-les vers un ensemble de disques distinct, même une seule paire en miroir. Ce sera également un gain de performances si votre base de données a une charge importante car la contention sur les volumes de journaux a un effet disproportionnellement mauvais sur les performances.

Si cela est possible, vous pouvez également rendre votre base de données plus robuste en procédant comme suit:

  1. Fermez la base de données.
  2. Sauvegardez la base de données.
  3. Déplacez les journaux vers un ensemble de disques physiquement séparé (assurez-vous de reconfigurer la base de données afin qu'il sache où les journaux ont été déplacés).
  4. Redémarrez la base de données et l'application.

Si vous avez les journaux sur un volume séparé, vous pouvez restaurer et restaurer à partir de la sauvegarde si et seulement si une panne de disque ne compromet pas les journaux. Les journaux de base de données doivent se trouver sur un volume de disque séparé pour (entre autres) les raisons suivantes:

  • Les modèles d'utilisation des journaux sont principalement séquentiels, ajoutant des entrées de journal à la fin du fichier (le fichier est en fait un tampon en anneau). Cela signifie qu'un grand nombre d'entrées de journal peuvent être écrites rapidement car il y a peu d'activité de recherche de tête de disque.

  • S'ils partagent des disques physiques avec une charge de travail à accès très aléatoire (par exemple, des tables et des index transactionnels), ils seront ralentis de manière disproportionnée car l'activité de recherche de tête perturbe les écritures séquentielles.

  • Avoir les journaux sur un volume séparé est presque toujours un gain de performances et n'a besoin que d'une seule paire en miroir pour que les journaux prennent en charge une charge de travail assez lourde. Cela signifie que le matériel pour le faire est assez bon marché, donc il y a un petit coût pour un gros gain de performances et de fiabilité.

  • Si votre tableau de données tombe en panne, les journaux ne sont pas perdus. Si vous avez une stratégie de sauvegarde appropriée, vous pouvez restaurer à partir de la sauvegarde et faire avancer les journaux. Cela signifie qu'une baie entière peut descendre sur le serveur sans être un seul point de défaillance. Les tableaux de journaux et de données doivent échouer simultanément pour provoquer une perte de données.


Merci pour la réponse expliquant en particulier pourquoi le système fonctionne lentement.
Philip Fourie

Repérez. Je suggérerais même de l'arrêter jusqu'à ce que vous obteniez ce disque de remplacement en place. Comme le dit Nigel, vous n'avez pas de stratégie de récupération. Perdez un autre disque, perdez tout.
Stu Thompson,

Salut Nigel, merci d'avoir pris le temps et partagé votre expertise. C'est en effet un excellent conseil. Je ferai rapport plus tard sur l'issue de la reprise.
Philip Fourie

5

1) Sauvegarde.

À l'heure actuelle, aucune donnée n'a été perdue. Si vos sauvegardes ne sont pas à jour, sauvegardez maintenant.

2) Lisez le manuel, appelez le vendeur, etc.

Différents systèmes RAID ont différentes étapes pour remplacer un disque, et mal fait, vous risquez de détruire la totalité de la baie. Sans savoir quel type de matériel / logiciel RAID vous avez, nous ne pouvons que deviner les étapes nécessaires.

En outre, les performances lentes sont dues au fait que RAID 5 dans un état dégradé (c'est-à-dire: un disque mort) a des performances de lecture horribles. L'horrible dépend de la façon dont la parité est stockée et du disque mort, mais la "bonne" nouvelle est que les performances lentes avec un disque disparu sont un problème connu et ne provoquent pas de panique.


4

Je voudrais d'abord lire le manuel du matériel / logiciel que vous utilisez - la section pour la récupération après échec :)

Cela devrait être une simple question de remplacer le disque et de reconstruire la baie.

Le point le plus important dans de tels cas est que le disque doit être remplacé dès que possible car si un autre disque tombe en panne, vous perdrez probablement des données. Vous devez également vous attaquer à la cause de l'échec - était-ce parce que le disque vieillissait? Devriez-vous également remplacer les autres? Ou était-ce à cause d'une surtension, de la chaleur ou des vibrations?


1
probablement perdre des données? Perdez certainement toutes les données de la baie! Allez en prison, ne passez pas Go. (sauvegardes de côté, bien sûr.)
Stu Thompson

1

Pour autant que je comprends RAID5, lorsque vous remplacez le disque défectueux, il est automatiquement reconstruit, à partir des informations stockées sur les deux autres. Que vous puissiez `` remplacer à chaud '' le nouveau disque en place dépend de votre système - vous devrez peut-être d'abord éteindre. Quoi qu'il en soit, compte tenu du coût relativement faible des disques et de l'importance de vos données (reflétées par votre décision d'utiliser RAID5 en premier lieu), vous devriez vraiment avoir un disque de rechange, assis dans un tiroir, prêt pour une telle éventualité .

J'ai récemment construit un nouveau PC de développement pour moi-même et configuré les principaux lecteurs de données sous RAID5. J'ai commandé un disque de plus que nécessaire, de sorte que j'ai la réserve de rechange prête pour ce moment d'urgence (que j'espère ne se produira pas)

Maintenant que vous avez posé la question, je suppose que je ferais mieux de lire davantage sur le sujet.


Pour les petits volumes de données, une paire en miroir est meilleure car elle a généralement une meilleure vitesse d'accès séquentiel qu'un petit RAID-5. Si vous voulez un échange à chaud, regardez certains des systèmes de baies de remplacement à chaud sur quelque part comme scsi4me.com
ConcernedOfTunbridgeWells

0

Totalement dépendant du système. Que disent les manuels? Votre matériel prend-il totalement en charge le branchement à chaud de nouveaux lecteurs du contrôleur à la baie de lecteurs? Avez-vous des sauvegardes récentes?


0

Le post de NXC le résume bien. Juste au cas où vous ne remplaceriez pas le disque défectueux avant que le deuxième échoue, il y a encore de bonnes chances que presque tout (parfois tout) soit récupéré par un service de récupération spécialisé. Les données sont toujours présentes sur les disques et les disques défectueux peuvent généralement être ramenés à la vie dans un laboratoire spécialisé avec un équipement approprié. Cependant, le prix de ce service est assez élevé. Avoir un disque de rechange et des sauvegardes appropriées (selon la suggestion de NXC) est certainement la voie à suivre à l'avenir.

En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.