Mise à niveau à partir d'une matrice RAID5 peu performante

3

Après de nombreuses enquêtes et l'achat de PCMark7, je pense avoir identifié la cause fondamentale des problèmes de performances de mon système PC: ma matrice de disques RAID5. Les scores PCMark7 sont énumérés ci-dessous. Mon hypothèse est que les mauvaises performances résultent de l'utilisation du contrôleur RAID intégré de ma carte mère.

Mes questions sont:

Ai-je raison de dire que ces scores de performance sont faibles?
Si oui, quelles solutions amélioreraient les performances? (c'est-à-dire modifications du système)

REMARQUE: J'utilise RAID 5 en partie pour le plaisir et en partie pour me protéger contre les pannes de disque. Notez que je faire sauvegardez également mes données sur un disque externe. Inutile de me renseigner sur le fait que le RAID ne remplace pas une bonne stratégie de sauvegarde.

System Storage Score: 1308
System Storage - importing pictures 5.18 MB/s
System Storage - adding music 0.7 MB/s
System Storage - video editng  15.00 MB/s

Autres spécifications système clés:

Processeur Intel Core i7-950
Windows 7 64 bits (6.1.7601)
8 192 Mo de mémoire (Corsair DDR3 à 667 MHz)
1 500 Go de volume Volume0

Résultats complets: http://www.3dmark.com/pcm7/584260

performance raid-5

— Aquadisco
source

6

Le RAID5 embarqué fonctionne généralement très mal. Le processeur Intel ICH10R (le contrôleur SATA intégré généralement associé au chipset x58) ne fait pas les calculs de parité, il est déchargé sur votre processeur.

Si vous souhaitez continuer à utiliser RAID avec le contrôleur intégré, je vous recommande RAID1 ou RAID10. Les deux manquent de parité (RAID1 est un simple miroir, RAID10 est une répartition sur plusieurs miroirs) et offrira de bien meilleures performances.

Si vous souhaitez continuer à utiliser RAID5, abandonnez votre contrôleur SATA intégré et procurez-vous une carte RAID appropriée. Vous constaterez de bien meilleures performances (même plus rapidement qu'un seul disque dans la plupart des cas).

— Rain
source

5

Tout d’abord, pour confirmer votre note, le RAID (quelle que soit sa configuration) n’est pas une solution de secours. Certaines configurations RAID constituent une solution redondante, mais pas de sauvegarde. La redondance signifie que vous pouvez conserver les données en cas de panne matérielle. Sauvegarde signifie que vous pouvez restaurer des données. Si vous supprimez accidentellement un fichier d'une configuration RAID1, il sera "supprimé" des deux lecteurs.

Pour vous donner des exemples réalistes de ma configuration RAID5, j'ai 20 machines virtuelles connectées au RAID5. La charge sur mon serveur n'est pas taxée très durement, et le délai d'E / S n'est respectivement pas trop mauvais étant donné que 20 machines virtuelles se battent pour 4 disques à 7 200 tr / min. Sous une charge plus lourde, j'ai vu mon délai d'E / S retarder à 60% lorsque toutes les machines virtuelles sont en cours de démarrage, mais cela serait normal. L'un des serveurs effectue une sauvegarde nocturne des ordinateurs distants et voit généralement un délai d'entrée / sortie de 10 à 15%. C'est toujours sous les attentes normales. J'ai environ 10 serveurs Web et 2 serveurs de téléphone qui fonctionnent constamment et qui taxent le serveur. Dans l’ensemble, il se comporte très bien.

enter image description here

4 disques durs de 7 200 tr / min, 1,5 To.

enter image description here

J'obtiens une moyenne de 128 Mo / s avec cette configuration avec toutes les machines virtuelles en cours d'exécution (je ne vais pas les arrêter pour les besoins de cette réponse. Hehe)

enter image description here

Mon contrôleur RAID est celui-ci 3ware 9650SE-4LPML et a bien servi pendant de nombreuses années. Je n'ai pas l'option Batterie de secours pour ce contrôleur RAID, mais le système est installé sur un onduleur.

enter image description here

Cependant, j’ai aussi un SSD RAID 1 que j’utilise pour les applications critiques. À savoir les serveurs de base de données et les serveurs nécessitant une IOPS élevée. Même si mon RAID5 rivalise avec le SSD RAID 1 en termes de débit, la configuration du SSD chasse le RAID5 hors de l'eau lorsque vous prenez en compte Seek Time.

enter image description here

— kobaltz
source

2

Raid5 est intrinsèquement lent en écriture. Il excelle en lecture, même s’il reste toujours en retard sur les autres options de raid telles que RAID10 (o + 1). Une carte RAID dédiée telle que la Dell Perc 5 / i (disponible sur ebay pour moins de 60 $) est une excellente option car elle augmentera certainement les performances que vous voyez. Vérifiez également dans RAID10 que vous aurez besoin de 4 disques de la même taille, mais cela donnera les meilleures performances tout en permettant jusqu'à 2 pannes de disque.

Raid10 est souvent utilisé sur des systèmes de serveur de production nécessitant des performances d'E / S, tandis que raid5 est utilisé dans les endroits où le stockage est plus critique mais les performances secondaires.

EDIT: pour s’étendre, RAID10 vous fournira la moitié des disques de votre baie en termes de stockage. Donc, si vous avez 4 disques de 500 Go dans un raid10, vous aurez 1 To d'espace utilisable. Dans Raid5, vous obtenez n-1 lecteurs. Ainsi, les mêmes 4 disques de 500 Go dans raid5 produiront une baie de 1,5 To tout en tolérant une panne de disque unique. C’est la raison pour laquelle raid5 est utilisé parce qu’il a une tolérance aux pannes mais qu’il fournit toujours un stockage correct (un compromis). Etant donné que Raid5 doit écrire la parité sur l’un des disques à chaque écriture, cela ralentit considérablement le processus. Raid10 écrit sur les disques supprimés (performances accrues), puis la carte de raid "copie" (copie en miroir) les données dans la baie redondante. Cela n'enlève rien à la performance puisque sa mise en miroir après l’écriture est terminée.

— SnakeDoc
source

Donc, comme question de suivi, j'imagine que migrer vers un nouveau contrôleur RAID ne serait pas aussi simple que de simplement brancher le disque sur la nouvelle carte. Je suppose que je devrai créer une image disque et la restaurer dans la nouvelle matrice (c'est-à-dire Clonezilla?)

— Aquadisco

@ Aquadisco Correct.

— Rain

1

Fiabilité théorique RAID 0, 5, 6, 10.

RAID5 / RAID6 - montre à quel point RAID6 RAID5 est plus sûr.

RAID5 / RAID10 - montre à quel point RAID10 RAID5 est plus sûr.

p - la probabilité d'échec du disque dur; (Probabilité d'échec du disque dur en% divisé par 100%)

q = 1 - p disque dur fiable.

Le rouge indique la probabilité d'échec du RAID sous forme de pourcentage.

Les autres couleurs montrent la fiabilité des autres types de RAID à RAID5.

M3 - the first three months of the disk, the probability of failure,  3%; 
Y/2 - half a year, the probability of failure, HDD                    2%; 
1Y - the first year of HDD, the probability of failure, HDD           1,7%; 
2Y - second year of the HDD, the probability of failure HDD           8%; 
3Y - the third year of the HDD, the probability of failure, HDD       8,7%; 
4Y - the fourth year of the HDD, the probability of failure HDD       6%; 
5Y - the fifth year of the HDD, HDD failure probability of            7%;

Les informations sur le disque de fiabilité de la source sont prises: PDF! Tendances d'échec dans une grande population de disques

Probability of failure Raid Arrays

Probability of failure Raid Arrays Year 4-5

probability of failure of the RAID1

M3: 0,09%; Y / 2: 0,04%; 1Y: 0,0289%; 2Y: 0,64%; 3Y: 0,7569%; 4Y: 0,36%; 5A: 0,49%

RAID1 le plus simple et le plus fiable. La sauvegarde peut être considérée comme une sorte de RAID1, si vous le faites une fois. La légère différence due à la fiabilité différente.

probability of failure of the original and a copy for backup

Si vous voulez plus de fiabilité, vous pouvez créer plusieurs copies de sauvegarde sur différents périphériques. Le pourcentage possible de perte de données est réduit à:

probability of failure of the original and a (R-1)-number copy for backup

RAID0 est le tableau le plus simple et le moins fiable. Nécessaire là où les données n’ont pas autant d’importance à l’occasion de telles expériences éphémères. Ce tableau est utilisé lorsque la vitesse est nécessaire et les données peuvent être complètement perdues.

probability of failure of the RAID0

Il y a longtemps, RAID5, lorsque les disques durs étaient petits et coûteux, et les arbres grands et fiables en raison de leur taille réduite et de la rapidité de leur récupération, étaient acceptables à l'époque où ce type de RAID fonctionnait. Si vous avez soudainement eu une bonne idée d'utiliser un tel tableau, regardez le tableau.

En cas de problème avec l'un des disques durs, RAID5 vous permet de perdre toute la matrice. Par exemple, s’il est construit à partir de la taille du disque dur 1 To dans le taux de récupération sera jusqu'à 1-2 jours, et le taux d'échec est d'environ 10-12%, lorsque le tableau est dégradé et ne fonctionnera pas. Dans ce cas, il est préférable de restaurer les données sur une matrice de stockage externe.

En général, il s’agissait de sites Web de stockage peu coûteux.

À ce jour, ne pas conseiller d'utiliser RAID5.

probability of failure of the RAID5

RAID6 - Fiabilité de l'ode. RAID5 à RAID6 plus lent 20-15-10%, selon le contrôleur. Rappelons que RAID5 n’est pas très rapide. Comme le nombre de fiabilité de disque RAID6 catastrophique tombe. 8-10 disques durs en tableau à une limite raisonnable.

probability of failure of the RAID6

N - sont des nombres pairs positifs.

positive even numbers

RAID10 difficile de trouver un bon terrain. Principalement en raison de la facilité de récupération. Même si votre contrôleur est brûlé. Entre autres choses, la fiabilité de RAID10 augmente avec le nombre de disques. Par exemple, j’ai vu exécuter des disques RAID10 c 12, lesquels d’entre eux ne fonctionnaient pas. Étrangement, cette situation n’est pas inhabituelle, car elle devrait rester en état de fonctionnement sur le contrôleur à 48,5%. Pour deux ou trois disques, la situation est bien meilleure.

La probabilité de défaillance du RAID 10 est conçue de deux manières, la première uniquement avec la défaillance de deux disques durs, la seconde - la probabilité totale de défaillance. La probabilité totale inclut tout le nombre possible de disques durs en panne dans lesquels le RAID continuera.

Échec des deux disques durs en RAID 10:

probability of failure 2 HDD of the RAID10

La probabilité totale de défaillance de RAID 10:

The total probability of failure of the RAID10

Les trois tables du bas représentent les éléments suivants:

Le premier tableau contient le nombre de combinaisons dans lesquelles RAID continuera. Colonne de gauche - nombre de disques durs en RAID. Titre du haut - nombre de disques durs en panne.

Exemple: à partir de 12 disques durs en RAID10 hors d'usage 3 disques durs. Nombre de combinaisons dans lesquelles la matrice continuera de fonctionner en cas de défaillance de trois disques durs HDD - 160.

Le second tableau indique le nombre de combinaisons uniques pour un certain nombre de disques durs en RAID pour un nombre défini de disques durs. Colonne de gauche - nombre de disques durs en RAID. Titre du haut - nombre de disques durs qui compte le nombre de combinaisons uniques.

Exemple: Le nombre de combinaisons uniques pour 3 disques durs dans la gamme de 12 disques durs - 220.

Le troisième tableau indique les pourcentages de combinaisons dans lesquelles le RAID continuera à fonctionner et le nombre total de combinaisons. Colonne de gauche - nombre de disques durs en RAID. Le titre du haut - la probabilité d'échec d'un RAID si sa fiabilité ne dépend que de la combinaison d'un disque dur et qu'un tel test serait effectué.

Exemple: à partir de 12 disques durs en RAID10 hors d'usage 3 disques durs.

La probabilité d'une bonne combinaison dans laquelle la matrice RAID continuera jusqu'à 72,7%.

Ces chiffres doivent être pris en compte, mais gardez également à l'esprit que nous traitons du produit des probabilités. La probabilité qui en résultera sera donc moindre si trois disques durs sont utilisés.

Le but principal de ces tables est de comprendre pourquoi il existe une fiabilité de croissance RAID10 avec le nombre de disques relativement fiable en chute RAID6 et RAID5.

Comment puis-je vérifier la table avec une combinaison réussie? Rappelons que le nombre total de combinaisons réussies en cas d’échec du disque dur est de (3 ^ m) -1, où m = N / 2. Résumer la ligne avec RAID 10 est comme nous, même si c’est un tableau de 24 disques: 24 + 264 + ... + 4096 et comparer avec (3 ^ 12) -1.

Combination table

probability of failure of the RAID5 recovery

LSI 24 SAS port controller

Discussion sur le risque RAID

Joerg H. • Les disques de secours ne vous aident qu'en cas de défaillance agressive du tableau.   conduit avant qu'ils meurent complètement. Ensuite, le tableau peut copier le   disque "en panne" sur le disque de secours au lieu de reconstruire les données du   parité. Le problème, c’est que c’est un peu hasardeux, à moins que   le tableau est très agressif et même alors il n'y a pas 100%   garantir que chaque défaillance sera détectée avant qu'il ne soit difficile   échec. Donc, à tout le moins, vous devez planifier une reconstruction à partir de   la parité, peu importe quoi.

En ce qui concerne RAID-6 par rapport aux autres types RAID et à la taille du disque. Ça l'est vraiment   aussi simple que cela. Lorsque vous considérez le MTTDL (temps moyen de transmission de données)   Perte) dans un système avec 20 disques durs de 1 To, un taux de reconstruction de 50 Mo / s et   environ 15 To de données réelles stockées sur le système, vous obtenez ce qui suit   Taux d'échec RAID:

Année 1: RAID-5 - 13,76% RAID-10 - 0,078% RAID-6 - 0,516%

Année 2: RAID-5 - 25,6% RAID-10 - 0,156% RAID-6 - 1,03%

Année 3: RAID-5 - 36,86% RAID-10 - 0,23% RAID-6 - 1,54

Année 5: RAID-5 - 53,30% RAID-10 - 0,38% RAID-6 - 2,56%

Donc, comme vous pouvez le constater, je maintiens ma suggestion précédente selon laquelle la règle de   le pouce est en fait assez bon. Avec toute taille de disque 1 To ou plus, vous   vouloir utiliser autre chose que RAID-5, période. Vous ne pouvez pas compter sur chaud   pièces de rechange pour vous sauver, de sorte que vous êtes seulement les options sont RAID-10 ou RAID-6   votre tableau typique. Choisissez votre poison, ou faites tourner la chambre, c'est à   vous.

Oh, encore un point, pour un système Netapp RAID-DP, les chiffres sont presque   identique aux numéros RAID-10 en termes de MTTDL. Évidemment si votre   Les temps de reconstruction sont meilleurs que 50 Mo / s, alors vos chances s’améliorent, et   si c'est pire, comme sur certains disques SATA, vos chances empirent, mais   50 Mo / sec sont un assez bon nombre moyen de travailler avec.

Enfin, voici certains qui diraient que MTTDL n'est pas une bonne mesure   de fiabilité. Malheureusement, c'est le seul que nous avons en commun   usage. Pour plus d'informations sur ce sujet, consultez le document "Mean   temps de perdre son sens: MTTDL, modèles de Markov et système de stockage   «fiabilité» de Greenan, Plank et Wylie.

— STTR
source