Vous recherchez une expérience réelle de panne de disque RAID 5 2? [fermé]


15

Je me demande si quelqu'un a une expérience personnelle de la panne d'un disque RAID 5 2 avec de gros disques?

Si je comprends bien, la théorie est qu'avec de gros disques de 1 à 2 To, si un disque tombe en panne dans le jeu de raid, il doit tout reconstruire, donc il frappe très dur tous les autres disques, et les chances d'un autre échec augmentent, surtout si les disques proviennent du même lot de fabrication. Et si vous perdez un autre lecteur, vous perdez toutes les données.

Ceci est généralement expliqué après la déclaration "RAID n'est pas une sauvegarde" avec laquelle je suis d'accord.

La théorie de cela a du sens, et je la comprends, mais est-ce vraiment le cas?


Malheureusement, nous venons de recevoir une nouvelle question avec une expérience en direct de cela. :( superuser.com/questions/516844/…
Hennes

Réponses:


15

Oui, ça m'est arrivé. Un ensemble de 4 disques WD 500 (de qualité grand public) a mal tourné au cours d'une semaine environ. J'ai mis du temps à remplacer le premier, je n'ai pas mis la baie hors ligne et j'ai perdu toutes mes données lorsque le second a échoué. J'ai réutilisé les deux bons restants, et l'un d'eux a échoué dans le mois suivant. Ils étaient tous bien refroidis et entretenus. Je peux seulement dire que je crois maintenant à la rhétorique du "mauvais lot".

Dans un incident distinct, j'ai eu 3 disques distincts de marques et de modèles différents qui tombent en panne à moins d'un mois les uns des autres, bien que je suis à peu près certain que la raison de leur échec était due à une mauvaise ventilation. Ne cuisinez pas vos disques!


3
En corollaire, ayez une pièce de rechange pour un disque qui tourne mal. Méfiez-vous également de la corruption silencieuse ... il est facile de perdre des données sur un lecteur qui ne fait que faire semblant de fonctionner.
Paul McMillan

C'est une autre raison pour laquelle vous ne devez pas installer des disques qui sont tous du même lot dans une matrice RAID - ils ont des temps de défaillance corrélés (vous savez, comme les taux par défaut des titres hypothécaires garantis par des subprimes en tranches).
Andrew Mao

4

Cela m'est en fait arrivé, cependant, ce n'était pas vraiment la façon la plus courante de faire échouer un disque. J'avais 4 disques SATA externes de 500 Go dans le raid 5. Ils étaient attachés à un vieux serveur IBM monté en rack bon marché. L'ensemble de l'installation a été caché sous les escaliers et un jour, soit un rat ou un lapin, mais quelque chose a mâché des câbles d'alimentation et 2 disques ont été court-circuités. Tous les disques étaient dans des boîtiers externes bon marché, donc je suppose que je n'aurais pas dû être aussi surpris.


3

Demandez-vous si vous pouvez perdre 2 disques consécutifs? Bien sûr, tout peut arriver. Raid 5 permet une grande disponibilité et une augmentation des performances pour l'accès aux données, mais le raid 5 ne sauvegarde rien. Il aide simplement à empêcher l'utilisation de vos données en raison d'une perte matérielle d'un seul disque. Ce n'est pas une copie de vos données. Vous ne pouvez pas récupérer une ancienne copie, une ancienne révision ou simplement une copie de votre travail actuel. En outre, ne protège pas contre la corruption des données. Il y a plus de choses qui pourraient mal tourner que de simplement perdre un disque. Le virus pourrait corrompre toutes vos données, la petite sœur aime regarder la poubelle sur votre bureau se remplir et se vider lorsqu'elle y jette des fichiers, une amie stupide laisse tomber un soda sur votre machine, etc.

Rappelez-vous également que vous pouvez perdre le contrôleur de raid du disque dur. Et vous ne pouvez pas simplement déplacer la baie vers un autre contrôleur aléatoire. Vous devez normalement utiliser exactement le même et pourtant, quelque chose pourrait mal tourner. Certains contrôleurs de raid stockent des informations à bord et d'autres envoient des informations de configuration à la baie connectée. C'est un pari lorsque cette situation se présente.

Même question sur SF: /server/2888/why-is-raid-not-a-backup

Besoin de plus de raisons?

EDIT: Votre idée est correcte et pourrait arriver à n'importe qui. Personnellement, je n'ai pas vu plus d'un disque en panne, mais j'ai vu certains mourir très proches les uns des autres. Aucun d'entre eux n'était dans cette fenêtre de reconstruction, mais c'est techniquement un risque. Mais, vous avez une sauvegarde au cas où quelque chose se passerait, non? haha. Certaines personnes apprennent parfois à la dure sur celui-ci. Raid 6 passe au niveau supérieur avec une double parité et peut perdre jusqu'à 2 disques. Avec toute configuration de raid, la probabilité de défaillance augmente avec la taille (nombre de disques) et la complexité de la baie. Plus de lecteurs = plus de points de panne possible


désolé, je comprends tout ça, juste demander si c'est arrivé à quelqu'un et quel était le scénario?
Brian

3

Vous avez raison, dans un scénario RAID-5, si vous perdez un disque puis reconstruisez, le système doit réussir à lire tous les secteurs de tous les disques survivants dans l'ensemble RAID. NetApp affirme que dans certaines situations (ils peuvent faire des ensembles RAID de jusqu'à 28 disques de certains types), vos chances de rencontrer un deuxième échec peuvent atteindre un sur dix. Ainsi, ils font une "double parité" qui, je crois, est liée à RAID-6.

Évidemment, plus vous avez de disques dans un ensemble RAID, et plus ils sont gros, plus vous risquez de rencontrer un problème. Pour un petit ensemble RAID (3-5 disques), les probabilités ne se sont probablement pas trop déplacées par rapport à l'utilisation de RAID-5.

Mais je fais toujours Raid-DP sur NetApps où je peux.


+1 Je n'avais jamais pensé au fait de "lire avec succès tous les secteurs de tous les disques survivants".
AaronLS

2

Aucune expérience personnelle , mais j'ai écouté les cris de ceux qui l'ont vécu. Tout système de stockage - qu'il s'agisse d'un seul lecteur, d'une clé USB, d'une bande, d'une énorme installation RAID ou d'Amazon S3 - finira par échouer de la manière qui vous dérange le plus. Un deuxième échec lors de la reconstruction d'un ensemble RAID 5 n'est qu'une des façons dont cela peut se produire.

Soit dit en passant, la prise en charge du RAID à triple parité a été intégrée dans OpenSolaris il y a quelques jours - donc au moins un fournisseur pense que permettre deux pannes supplémentaires pendant la reconstruction du RAID à parité vaut la peine de l'ingénierie.


1

Cela se produit effectivement. C'est pourquoi les solutions de stockage NetApp ont une implémentation de RAID 6. C'est juste au cas où vous perdriez un deuxième disque pendant la reconstruction.

Vous pouvez calculer la probabilité d'une défaillance à l'aide des formules standard répertoriées dans le texte du lien de la page suivante. Lorsque vous évoluez vers un nombre de plus en plus important de lecteurs de données, la probabilité d'une telle défaillance augmente. Si vous avez suffisamment de disques, vous pouvez pousser ce nombre dans la zone d'inquiétude si vous utilisez un RAID 5 avec un grand nombre de volumes de données.

Je peux vous dire par expérience personnelle que vous pouvez certainement avoir deux pannes de disque dans la même baie dans le même délai critique. Raid 6 m'a évité d'avoir à restaurer à partir d'une sauvegarde.

J'espère que cela t'aides


1

Voici un scénario: un disque tombe en panne sur votre matrice RAID5, mais votre disque de rechange était déjà assis, ou la commande du nouveau disque dur est finalement arrivée. Vous (ou un serviteur distant peut-être) allez avec un nouveau disque en main pour remplacer un disque défectueux. En raison d'un mauvais étiquetage, de la fatigue ou simplement d'une folie, l'un des bons disques restants est éjecté au lieu du défectueux ... et il y a votre deuxième échec.


1

Je l'ai vu plusieurs fois alors que je suis dans le domaine de la récupération de données. Et oui, ils échouent souvent en même temps, mais je ne pense pas que cela ait quoi que ce soit à voir avec leur construction, car j'ai également vu cela se produire avec des disques incompatibles. Le plus souvent, ce type de défaillance survient peu de temps après un orage, une surtension ou une panne de courant.

En général, la surtension endommage les disques ou le contrôleur RAID et, en quelques jours, ils commencent à échouer. En fait, je travaille actuellement sur la récupération d'une baie qui avait deux disques en panne simultanément après une panne de courant. (semble désespéré en ce moment)

Un petit conseil: les parasurtenseurs ne protègent pas vraiment votre équipement. Connectez toujours votre raid 5 à un bon onduleur. Je n'ai jamais vu cela se produire lorsque la baie était sur un onduleur.


1

Le fait de retirer accidentellement un deuxième bon disque d'un ensemble à parité unique ne devrait pas détruire la baie avec une bonne implémentation RAID. Je sais que ZFS RAID-Z gèlera simplement toutes les E / S sur la baie jusqu'à ce que vous la remettiez en ligne.


0

Autre scénario: un serviteur distant reçoit l'ordre de récupérer la bande de sauvegarde du lecteur de bandes. Elle va au rack et ne sort pas la bande du lecteur de bande ... mais 2 (deux) disques durs hors des baies de disques en même temps et le tour est joué: panne de 2 disques.

Vous pensez que c'est farfelu? Eh bien, je suis maintenant chez un client qui a fait exactement cela et envisage maintenant une reconstruction du serveur.

Bon thinng elle n'a pas brûlé la bande qui était en fait dans la cassette ou quoi ;-)

En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.