Test matériel automatisé des serveurs HP?

Dans le cadre du provisionnement des serveurs, nous exécutons HP Insight Diagnostics pour tester le matériel. Il s'agit d'un processus manuel. Existe-t-il un moyen d'automatiser l'exécution d'Insight Diagnostics?

Il existe le logiciel hpdiags avec l'option "-rd:" "Exécuter un diagnostic de tous les périphériques diagnostiquables." D'après mes tests, cela ne fait pas grand-chose (il lit simplement les informations SMART sur les disques). Quelqu'un a-t-il eu plus de chance avec ça?

Matériel: BladeCenter c7000 avec lames HP ProLiant BL460c, DL360s.

OS: ESXi et Ubuntu.

hardware hp hp-proliant automated-testing

— Mark Wagner
source

La réponse courte est que je ne prends pas la peine de le faire dans de grands environnements. La surveillance et les diagnostics embarqués suffisent. Mais pouvez-vous fournir des informations sur les modèles de serveur que vous utilisez? Et peut-être les systèmes d'exploitation impliqués.

— ewwhite

J'ai mis à jour le ticket avec les informations demandées.

— Mark Wagner

Installez-vous des versions spécifiques à HP d'ESXi? Installez-vous des agents de gestion HP sur les systèmes Ubuntu? Quelle (s) génération (s) sont les serveurs? G6? G7? Gen8?

— ewwhite

Les agents de gestion HP sont installés sur ESXi et Ubuntu. Les serveurs sont Gen8 et seront Gen9.

— Mark Wagner

I updated the ticket with the requested info- Ça m'a fait rire. Ce n'est pas le helpdesk.

— joeqwerty

Je vais donc poser une autre question:

Pourquoi est-il nécessaire d'exécuter les diagnostics matériels HP Insight sur les serveurs avant le provisionnement?

Dans mon commentaire ci-dessus, j'ai indiqué qu'il n'y avait pas grand-chose à gagner à le faire de manière préventive dans les grands environnements HP ProLiant. Je devrais clarifier mes pensées à ce sujet ...

Par ordre décroissant de fréquence, examinons les types de problèmes que vous rencontrez généralement:

Baie de stockage et disques : le contrôleur RAID rendra compte au système d'exploitation, aux journaux, à SNMP, aux e-mails, au BIT et allumera de jolies lumières pour indiquer la santé.
RAM : Le processus POST détectera l'état de la RAM, ainsi que les rapports du système au système d'exploitation, les journaux, SNMP, les e-mails, l'OIT et allumer un indicateur LED sur le Systems Insight Display (SID) du panneau avant . De plus, je ne suis pas un fan des processus de rodage de la RAM car la détection d'erreurs de ces systèmes est déjà robuste.
Thermique et ventilateurs : la température du serveur et la vitesse du ventilateur sont réglementées par l'OIT. Il y a plus de 30 capteurs de température sur ces systèmes , donc le système de refroidissement est extrêmement efficace. Cela rend toujours compte au système d'exploitation, aux journaux, au SNMP, au courrier électronique et au SID.
Alimentation : l'état de la PSU est signalé au système d'exploitation, aux journaux, au SNMP, aux e-mails et au SID, ainsi qu'à un voyant lumineux réel sur l'unité d'alimentation réelle.
Santé globale : Ceci est facile à évaluer d'un coup d'œil avec l'écran SID, en plus de la LED de santé interne et de santé externe. Cela est également signalé dans les journaux du serveur, SNMP, le courrier électronique et l'OIT.

entrez la description de l'image ici

Je ne peux penser à aucune condition qui serait trouvée avant le déploiement qui ne serait / ne pourrait pas être signalée pendant l'exécution ou après l'installation du système d'exploitation.

La boucle de diagnostic ne trouve généralement rien lorsqu'elle est exécutée sur un système sans problèmes antérieurs évidents. Cela est principalement dû au fait que le serveur doit POSTER et démarrer dans l'utilitaire ou le micrologiciel Intelligent Provisioning pour exécuter l'utilitaire.

Autrement dit, tout élément qui serait un "SPOF" sérieux pour le serveur empêcherait probablement le système d'exécuter ses autodiagnostics.

Les éléments d'échec les plus courants sont encore assez robustes; les disques doivent être en RAID et remplaçables à chaud. Les ventilateurs et les blocs d'alimentation sont également remplaçables à chaud. Votre RAM a des seuils ECC et il existe des options de rechange en ligne pour la plupart des plates-formes ProLiant. Il n'y a rien que vous puissiez faire pour provoquer une défaillance de ces composants en exécutant des diagnostics. Ajoutez le fait que vous utilisez des boîtiers lames HP C7000, qui ont des redondances internes , et votre incidence de défaillance devrait être assez faible.

— ewwhite
source

Le problème est si (a) un défaut est détecté après l'installation du système d'exploitation (c'est-à-dire que le serveur est en production), (b) la réparation ne peut pas être effectuée en ligne ou si le composant défaillant est un SPOF pour le serveur, et (c) le serveur est un SPOF, alors vous subirez des temps d'arrêt (soit immédiatement, soit lorsque le système sera arrêté pour réparation). Pour empêcher la conclusion, vous devez empêcher l'une des conditions. J'allais pour (a) en détectant le défaut avant la production. J'apprécie votre minutie dans le détail des capacités de déclaration, mais je cherche à éviter d'avoir à les signaler en premier lieu, car elles ne se produisent pas.

— Mark Wagner

Une boucle de diagnostic HP ne trouvera probablement rien, étant donné que le serveur a besoin de POST et de démarrer dans l'utilitaire ou Intelligent Provisioning pour exécuter des diagnostics. Les éléments d'échec les plus courants sont assez robustes; les disques, les ventilateurs et les blocs d'alimentation sont remplaçables à chaud, la RAM a des seuils ECC. Il n'y a rien que vous puissiez faire pour provoquer une défaillance de ces composants.

— ewwhite