Échec du jeu de volumes RAID6 Areca 1280 ml

Aujourd'hui, nous frappons une sorte de pire scénario et sommes ouverts à toutes sortes de bonnes idées.

Voici notre problème:

Nous utilisons plusieurs serveurs de stockage dédiés pour héberger nos machines virtuelles. Avant de continuer, voici les spécifications:

Machine serveur dédiée
Contrôleur RAID Areca 1280 ml, micrologiciel 1,49
12 disques durs Samsung 1 To

Nous avons configuré un ensemble RAID6 avec 10 disques contenant un volume logique. Nous avons deux disques de secours dans le système.

Aujourd'hui, un disque dur est tombé en panne. Cela se produit de temps en temps, nous l'avons donc remplacé. Lors de la reconstruction, un deuxième disque a échoué. Normalement, ce n'est pas amusant. Nous avons arrêté les opérations d'E / S lourdes pour assurer une reconstruction RAID stable.

Malheureusement, le disque de secours a échoué lors de la reconstruction et le tout s'est arrêté.

Nous avons maintenant la situation suivante:

Le contrôleur dit que l'ensemble de raid est en cours de reconstruction
Le contrôleur dit que le volume a échoué

Il s'agit d'un système RAID 6 et deux disques sont tombés en panne, les données doivent donc être intactes, mais nous ne pouvons pas remettre le volume en ligne pour accéder aux données.

Lors de la recherche, nous avons trouvé les pistes suivantes. Je ne sais pas s'ils sont bons ou mauvais:

Mise en miroir de tous les disques sur un deuxième ensemble de lecteurs. Nous aurions donc la possibilité d'essayer différentes choses sans perdre plus que ce que nous avons déjà.
Essayer de reconstruire le tableau dans R-Studio. Mais nous n'avons pas vraiment d'expérience avec le logiciel.
Tirer tous les disques, redémarrer le système, passer au BIOS du contrôleur areca, réinsérer les disques durs un par un. Certaines personnes disent que cela a mis le système en ligne. Certains disent que l'effet est nul. Certains disent qu'ils ont tout fait exploser.
Utilisation de commandes d'arec non documentées comme "rescue" ou "LeVel2ReScUe".
Contacter un service de criminalistique informatique. Mais whoa ... les estimations primaires par téléphone dépassaient 20 000 €. C'est pourquoi nous vous prions de bien vouloir demander de l'aide. Peut-être que nous manquons l'évidence?

Et oui bien sûr, nous avons des sauvegardes. Mais certains systèmes ont perdu une semaine de données, c'est pourquoi nous aimerions que le système soit à nouveau opérationnel.

Toute aide, suggestions et questions sont les bienvenues.

— Richard
source

Je dirais que quoi que vous fassiez, votre première étape devrait être un ddmiroir de tous les disques, juste pour éviter plus de dommages et avoir un plan de secours lorsque vous travaillez sur une vraie solution.

— Sven

Nous allons le faire ...

— Richard

Et les hotspares?

— Cawflands

Pouvez-vous contacter le fournisseur pour obtenir de l'aide? En supposant que vous ne pouvez pas (et que vous avez utilisé dd pour tout refléter, selon l'excellente suggestion de @ SvenW), pourquoi ne pas remplacer les disques en panne, redémarrer et voir ce qui se passe? Je ne tirerais pas nécessairement tous les disques, seulement ceux qui ont échoué. Mais vraiment, votre premier pari est le vendeur, ils comprennent leur logiciel.

— Jeremy

Avez-vous trouvé une solution? Si c'est le cas, faites-nous savoir ce que c'était pour référence future s'il vous plaît!

— Grant

Réponses:

Je pense que l'option 1. est la meilleure.

Prenez 12x nouveaux disques durs, 1x nouveau contrôleur RAID Essayez de mettre en miroir (dd if = of =) les anciens disques sur les nouveaux 1: 1 en utilisant n'importe quelle boîte Linux. Créez un nouveau serveur en utilisant le nouveau contrôleur RAID 1x plus les 12x nouveaux disques durs

Essayez de reconstruire la baie sur le nouveau serveur. Succès? Génial. Arrêtez.
La reconstruction a échoué? Mettez à nouveau en miroir les anciens disques vers les nouveaux, essayez l'option i + 1

— cipy
source

Il s'agit malheureusement d'un scénario très courant. Il y a eu une bonne étude Google il y a quelques années, et il s'avère que la perte de données avec RAID peut se produire lors de la reconstruction de la baie. Cela peut affecter différents systèmes RAID avec une gravité différente. Voici le scénario RAID6:

votre baie possède 3 disques de données et 2 disques de parité.
si vous perdez un disque, il est sûr que toutes les données sont récupérables.
si vous perdez 2 disques, vous avez perdu des données

Pourquoi donc?

Pensez à ce qui suit: laissez quelques données, supposez que les 3 premiers blocs d'un fichier vous avez les blocs de données suivants: A1 + A2 + A3 et la parité suivante: Ap + Ap assis sur hdd1 ... hdd5

Si vous perdez deux disques entre 1 et 3, vous avez perdu des données car les données ne sont pas récupérables, vous avez 2 parités et 1 bloc de données.

Maintenant, le même scénario avec 10 disques peut être différent, mais je suppose qu'il a géré la même manière que vous divisez les données en 8 blocs et enregistrez la parité sur 2 autres disques et que vous avez 2 disques de rechange. Connaissez-vous les détails de la configuration de votre contrôleur RAID?

Je commencerais à récupérer à partir d'une sauvegarde hors site (je suppose que vous en avez), et le service est de retour, essayez de récupérer autant de données que possible, en utilisant Unix et dd les lecteurs en images et en l'utilisant comme périphérique en boucle par exemple.

http://wiki.edseek.com/guide:mount_loopback

Vous devez savoir quel type de métadonnées le contrôleur RAID utilise et si vous êtes chanceux, il est pris en charge par certains outils comme dmraid.

Mais cela ne signifie pas que vous pouvez récupérer des données du tout, car les fichiers sont généralement répartis sur plusieurs blocs, la récupération risque de ne pas ramener aucune de vos données.

En savoir plus sur RAID:

https://raid.wiki.kernel.org/index.php/RAID_setup

— Istvan
source