Tout d'abord, la disponibilité totale ou le temps de disponibilité d'un cluster dépend de la taille d'une partie du cluster nécessaire pour être actif pour que l'ensemble du cluster soit considéré comme «opérationnel».
- Une machine fonctionnelle suffit-elle? Cela signifierait que n'importe quelle machine peut prendre la pleine charge si nécessaire.
- Est-ce que tous doivent être actifs en même temps? Autrement dit, il n'y a pas de redondance.
- Ou peut-être que deux sur trois en ligne sont suffisants? Cela permettrait une charge de travail plus importante que le premier cas.
Comme vous l'avez découvert, les deux premiers cas sont assez simples à calculer. Soit la probabilité qu'un seul serveur soit en ligne à un instant donné p = 0,95. Maintenant, pour trois serveurs, la probabilité qu'ils soient tous en ligne en même temps est p 3 = 0,857375.
Dans le cas contraire, où au moins une machine doit être active à un moment donné, il est plus facile de calculer en inversant le problème et en examinant les probabilités que les machines soient hors ligne . La probabilité qu'une seule machine soit hors ligne est q = 1- p = 0,05, et donc la probabilité qu'ils soient tous en panne en même temps est q 3 = 0,000125, donnant la probabilité 1- q 3 = 1- (1- p ) 3 = 0,999875 qu'au moins un est en hausse
Le cas 2 sur 3 est légèrement plus difficile à calculer. Il existe quatre situations possibles où au moins deux serveurs sur trois sont actifs. 1) ABC sont en hausse, 2) AB sont en hausse, 3) AC sont en hausse, 4) BC sont en hausse. Les probabilités pour tous ces éléments sont respectivement ppp , ppq , pqp et qpp . Comme les cas sont disjoints, les probabilités peuvent être additionnées, donnant un total A = p 3 + 3 p 2 q = 0,992750.
(Cela peut être étendu à plus de machines. Les facteurs sont les coefficients binomiaux bien connus , donc le comptage des différents cas à la main fonctionne principalement comme un exercice.)
Bien sûr, des calculs comme celui-ci sont beaucoup plus faciles à gérer en utilisant un programme informatique prêt à l'emploi ... Au moins un calculateur en ligne peut être trouvé ici:
http://stattrek.com/online-calculator/binomial.aspx
En entrant les valeurs d'entrée: probabilité de succès = 0,95, nombre d'essais = 3, nombre de succès = 2, nous obtenons le résultat "Probabilité cumulative: P (X ≥ 2) = 0,99275". Certaines autres valeurs connexes sont également données, et l'outil en ligne permet également de jouer facilement avec d'autres nombres.
Et oui, tout ce qui précède suppose que les serveurs échouent indépendamment, c'est-à-dire a) J'ai ignoré tous les problèmes affectant le cluster dans son ensemble, b) il n'y a rien de tel que le vieillissement des composants qui rendrait probable l'échec des serveurs à ou presque en même temps.