MTTF, MTBF, MTBR et MTBF pour HP ProLiant Gen9

J'ai étudié MTTF, MTBF, MTBR et MTBF pour les serveurs HP Gen9 fonctionnant dans notre environnement de production.

Racine de ma question, devrait être inquiet ou non.

Je n'arrive pas à obtenir de bonnes données car chaque serveur a un mélange de matériel.

Dans ma dernière entreprise, nous avons géré environ 2000 serveurs Dell r210 r410 r710. Je dirais qu'en moyenne, nous avions environ 5 serveurs par jour qui avaient une sorte d'échec. Donc, environ 0,25% du serveur est tombé en panne et devait être remplacé avant de pouvoir être réutilisé.

Ma dernière entreprise, tout a été configuré dans une paire HA, une infrastructure N + 2, donc il n'y a pas eu d'impact sur la production. Nous avons pu remplacer les serveurs et continuer

Dans mon bureau actuel, nous exécutons 9 serveurs (HP Gen9, Hyper-V de 56 VM), nous ne gardons pas beaucoup de pièces de rechange à portée de main et le centre de données n'est pas géré, donc si quelque chose meurt, nous devons conduire environ 45 minutes pour le remplacer n'importe quoi.

Mon directeur technique ou mon directeur informatique semblent inquiets, ils ont eu environ 2,5 jours de temps d'arrêt l'année dernière, j'ai auguré que nous devons regrouper les serveurs, mais ils ne voient pas le besoin.

Y a-t-il un mal ou un droit ici? Je ne sais pas quoi faire.

Je sais que ce n'est pas ma responsabilité si quelque chose se passe sur le CTO. Il s'agit d'une très petite entreprise uniquement le CTO, IT Manager, moi-même (dev ops) et 1 help desk guy.

Dans l'ensemble, l'expérience dans la gestion d'un environnement de production est très limitée, la façon dont beaucoup de choses sont configurées que j'appellerais niveau très junior, ni mon directeur technique ni mon directeur informatique ne connaissaient beaucoup le clustering avant d'y arriver. Ils étaient au milieu d'un projet de configuration de DR sans HA, contre lequel j'ai auguré mais perdu.

hyper-v hardware hp-proliant

— Anthony Fornito
source

HA coûte de l'argent. Peut-être qu'ils pensent que ça ne vaut pas l'argent.

— Michael Hampton

Ne vous inquiétez pas des chiffres MTTF, MTBF, MTBR et MTBF ... pourquoi ceux-ci s'appliqueraient-ils aux spécificités de votre environnement?

Les serveurs ont des redondances internes et peuvent être extrêmement stables en production. Mais cela dépend de votre environnement, de la matrice / composition des disques, des types de disques, de la quantité de RAM, de la configuration du processeur, des caractéristiques thermiques, de la puissance, etc.

L'utilisation d'une certaine forme de haute disponibilité peut réduire le risque de temps d'arrêt et vous donne un endroit pour déplacer vos charges de travail en cas de défaillance.

Il s'agit d'une question de risque financier et opérationnel.

Peut-être que le coût différentiel du passage du mode autonome au cluster est suffisamment élevé pour ne pas avoir de sens commercial? Peut-être que les 2,5 jours d'indisponibilité (~ 99,3% de disponibilité) sont suffisants pour votre fonctionnement. Vous devez vous concentrer sur la protection hors site et les bonnes sauvegardes. Tous vos systèmes HP Gen9 sont sous la garantie du fabricant aujourd'hui, de sorte que vous n'avez accès aux pièces. Si vous avez du RAID, des alimentations / ventilateurs redondants et une alimentation stable, vous avez couvert les domaines les plus critiques.

Pensez à cela d'un point de vue financier et décrivez les risques, les coûts associés et essayez de faire une analyse de rentabilité convaincante pour ce que vous voulez.

— ewwhite
source