Sobrique explique comment l'intervention manuelle fait que votre solution proposée est sup-optimale , et ewwhite parle de la probabilité de défaillance de divers composants . Ces deux OMI font valoir de très bons points et devraient être sérieusement prises en considération.
Il y a cependant un problème sur lequel personne ne semble avoir commenté jusqu'à présent, ce qui me surprend un peu. Vous proposez de:
faire de [l'hôte de secours à chaud actuel] un disque de secours, prendre les disques durs et les placer dans l'hôte principal et changer le RAID de 1 à 1 + 1.
Cela ne vous protège pas contre tout ce que le système d'exploitation fait sur le disque.
Il ne vous protège vraiment que contre les pannes de disque qui, en passant des miroirs (RAID 1) aux miroirs de miroirs (RAID 1 + 1), vous réduisez considérablement l'impact de commencer. Vous pouvez obtenir le même résultat en augmentant le nombre de disques dans chaque jeu de miroirs (passez de RAID 1 à 2 disques à RAID 1 à 4 disques, par exemple), tout en améliorant très probablement les performances de lecture pendant les opérations ordinaires.
Eh bien, voyons comment cela pourrait échouer .
- Supposons que vous installez des mises à jour système et que quelque chose provoque l'échec du processus à mi-chemin; peut-être qu'il y a une panne d'alimentation et d'onduleur , ou peut-être que vous avez un accident anormal et que vous avez rencontré un bug de noyau paralysant (Linux est assez fiable de nos jours, mais il y a toujours le risque).
- Peut-être qu'une mise à jour introduit un problème que vous n'avez pas détecté pendant les tests (vous testez les mises à jour du système, non?) Nécessitant un basculement vers le système secondaire pendant que vous corrigez le principal
- Peut-être qu'un bogue dans le code du système de fichiers provoque des écritures parasites et invalides sur le disque.
- Peut-être qu'un administrateur aux gros doigts (ou même malveillant) le fait
rm -rf ../*
ou rm -rf /*
au lieu de rm -rf ./*
.
- Peut-être qu'un bogue dans votre propre logiciel provoque une corruption massive du contenu de la base de données.
- Peut-être qu'un virus parvient à se faufiler.
Peut-être, peut-être, peut-être ... (et je suis sûr qu'il y a bien plus de façons dont votre approche proposée pourrait échouer.) Cependant, en fin de compte, cela revient à votre "avantage" les deux ensembles sont toujours synchronisés. Parfois, vous ne voulez pas qu'ils soient parfaitement synchronisés.
En fonction de ce qui s'est exactement passé, c'est à ce moment-là que vous souhaitez soit une mise en veille à chaud ou à froid prête à être activée et désactivée, soit des sauvegardes appropriées. Quoi qu'il en soit, les miroirs RAID de miroirs (ou miroirs RAID) ne vous aident pas si le mode de défaillance implique autre chose que la défaillance du périphérique de stockage matériel (panne de disque). Quelque chose comme raidzN de ZFS peut probablement faire un peu mieux à certains égards, mais pas du tout mieux à d'autres.
Pour moi, cela ferait en sorte que votre approche proposée ne soit pas possible dès le départ si l'intention était une sorte de basculement en cas de catastrophe.