Je veux comparer la fiabilité de différents systèmes RAID avec des disques grand public (URE / bit = 1e-14) ou d'entreprise (URE / bit = 1e-15). La formule pour avoir la probabilité de réussite d'une reconstruction (en ignorant les problèmes mécaniques, que je prendrai en compte plus tard) est simple:
error_probability = 1 - (1-per_bit_error_rate) ^ bit_read
Il est important de se rappeler qu'il s'agit de la probabilité d'obtenir AU MOINS un URE, pas nécessairement un seul.
Supposons que nous voulons un espace utilisable de 6 To. Nous pouvons l'obtenir avec:
RAID1 avec 1 + 1 disques de 6 To chacun. Pendant la reconstruction, nous relisons 1 disque de 6 To et le risque est: 1- (1-1e-14) ^ (6e12 * 8) = 38% pour les consommateurs ou 4,7% pour les disques d'entreprise.
RAID10 avec 2 + 2 disques de 3 To chacun. Pendant la reconstruction, nous relisons seulement 1 disque de 3 To (celui jumelé avec celui qui a échoué!) Et le risque est plus faible: 1- (1-1e-14) ^ (3e12 * 8) = 21% pour le consommateur ou 2,4% pour lecteurs d'entreprise.
RAID5 / RAID Z1 avec 2 + 1 disques de 3 To chacun. Pendant la reconstruction, nous relisons 2 disques de 3 To chacun et le risque est le suivant: 1- (1-1e-14) ^ (2 * 3e12 * 8) = 38% pour les disques grand public ou 4,7% ou les disques d'entreprise.
RAID5 / RAID Z1 avec 3 + 1 disques de 2 To chacun (souvent utilisé par les utilisateurs de produits SOHO comme Synologys). Pendant la reconstruction, nous relisons 3 disques de 2 To chacun et le risque est: 1- (1-1e-14) ^ (3 * 2e12 * 8) = 38% pour les disques grand public ou 4,7% ou les disques d'entreprise.
Le calcul de l'erreur pour la tolérance d'un seul disque est facile, plus difficile est de calculer la probabilité avec des systèmes tolérants aux pannes de plusieurs disques (RAID6 / Z2, RAIDZ3).
Si seul le premier disque est utilisé pour la reconstruction et que le second est relu depuis le début dans le cas ou un URE, alors la probabilité d'erreur est celle calculée au-dessus de la racine carrée (14,5% pour le consommateur RAID5 2 + 1, 4,5% pour le consommateur RAID1 1 + 2). Cependant, je suppose (au moins dans ZFS qui a des sommes de contrôle complètes!) Que le deuxième disque de parité / disponible est en lecture seule là où cela est nécessaire, ce qui signifie que seuls quelques secteurs sont nécessaires: combien d'URE peuvent éventuellement se produire sur le premier disque? pas beaucoup, sinon la probabilité d'erreur pour les systèmes de tolérance à disque unique monterait en flèche encore plus que ce que j'avais calculé.
Si je ne me trompe pas, un deuxième disque de parité réduirait pratiquement le risque à des valeurs extrêmement basses.
Mis à part la question, il est important de garder à l'esprit que les fabricants augmentent la probabilité d'URE pour les disques grand public pour des raisons de marketing (vendent plus de disques de classe entreprise), donc même les disques durs de classe grand public devraient atteindre 1E-15 URE / bit en lecture .
Quelques données: http://www.high-rely.com/hr_66/blog/why-raid-5-stops-working-in-2009-not/
Les valeurs que j'ai fournies entre parenthèses (disques d'entreprise) s'appliquent donc également aux disques grand public. Et les vrais disques d'entreprise ont une fiabilité encore plus élevée (URE / bit = 1e-16).
Concernant la probabilité de pannes mécaniques, elles sont proportionnelles au nombre de disques et proportionnelles au temps nécessaire à la reconstruction.