J'ai étudié MTTF, MTBF, MTBR et MTBF pour les serveurs HP Gen9 fonctionnant dans notre environnement de production.
Racine de ma question, devrait être inquiet ou non.
Je n'arrive pas à obtenir de bonnes données car chaque serveur a un mélange de matériel.
Dans ma dernière entreprise, nous avons géré environ 2000 serveurs Dell r210 r410 r710. Je dirais qu'en moyenne, nous avions environ 5 serveurs par jour qui avaient une sorte d'échec. Donc, environ 0,25% du serveur est tombé en panne et devait être remplacé avant de pouvoir être réutilisé.
Ma dernière entreprise, tout a été configuré dans une paire HA, une infrastructure N + 2, donc il n'y a pas eu d'impact sur la production. Nous avons pu remplacer les serveurs et continuer
Dans mon bureau actuel, nous exécutons 9 serveurs (HP Gen9, Hyper-V de 56 VM), nous ne gardons pas beaucoup de pièces de rechange à portée de main et le centre de données n'est pas géré, donc si quelque chose meurt, nous devons conduire environ 45 minutes pour le remplacer n'importe quoi.
Mon directeur technique ou mon directeur informatique semblent inquiets, ils ont eu environ 2,5 jours de temps d'arrêt l'année dernière, j'ai auguré que nous devons regrouper les serveurs, mais ils ne voient pas le besoin.
Y a-t-il un mal ou un droit ici? Je ne sais pas quoi faire.
Je sais que ce n'est pas ma responsabilité si quelque chose se passe sur le CTO. Il s'agit d'une très petite entreprise uniquement le CTO, IT Manager, moi-même (dev ops) et 1 help desk guy.
Dans l'ensemble, l'expérience dans la gestion d'un environnement de production est très limitée, la façon dont beaucoup de choses sont configurées que j'appellerais niveau très junior, ni mon directeur technique ni mon directeur informatique ne connaissaient beaucoup le clustering avant d'y arriver. Ils étaient au milieu d'un projet de configuration de DR sans HA, contre lequel j'ai auguré mais perdu.