J'ai un nouveau système HP ProLiant DL360 G7 qui présente un problème difficile à reproduire. Le serveur aléatoire se bloque à la « puissance et d' étalonnage thermique en cours ... » écran pendant le processus POST . Cela fait généralement suite à un démarrage / redémarrage à chaud à partir du système d'exploitation installé.
Le système se bloque indéfiniment à ce stade. La réinitialisation ou le démarrage à froid via les commandes d'alimentation de l'OIT 3 permettent au système de démarrer normalement sans incident.
Lorsque le système est dans cet état, l'interface OIT 3 est entièrement accessible et tous les indicateurs de santé du système sont corrects (tous verts). Le serveur se trouve dans un centre de données climatisé avec des connexions d'alimentation à la PDU. La température ambiante est de 17 ° C. Le système a été placé dans une boucle de test des composants de 24 heures avant le déploiement, sans échec.
Le système d'exploitation principal de ce serveur est VMWare ESXi 5. Nous avions initialement essayé la version 5.0 puis une version 5.1. Les deux ont été déployés via le démarrage PXE et kickstart. De plus, nous testons avec des installations Windows Baremetal et Red Hat Linux.
Les systèmes HP ProLiant disposent d'un ensemble complet d'options BIOS. Nous avons essayé les paramètres par défaut en plus du profil statique haute performance. J'ai désactivé l' écran de démarrage et un curseur clignotant apparaît à cet endroit par rapport à la capture d'écran ci-dessus. Nous avons également essayé quelques "meilleures pratiques" VMWare pour la configuration du BIOS . Nous avons vu un avis de HP qui semble décrire un problème similaire , mais ne résout pas notre problème spécifique.
Suspectant un problème matériel, le fournisseur a envoyé un système identique pour une livraison le jour même. Le nouveau serveur était une version totalement identique à l'exception des disques. Nous avons déplacé les disques de l'ancien serveur vers le nouveau. Nous avons rencontré le même problème de démarrage aléatoire sur le matériel de remplacement.
J'ai maintenant les deux serveurs fonctionnant en parallèle. La question frappe au hasard sur des bottes chaudes. Les bottes froides ne semblent pas avoir le problème. J'examine certains des paramètres du BIOS les plus ésotériques tels que la désactivation de Turbo Boost ou la désactivation complète de la fonction d'étalonnage de l'alimentation. Je pourrais essayer ceux-ci, mais ils ne devraient pas être nécessaires.
Des pensées?
--modifier--
Détails du système:
- DL360 G7 - 2 x X5670 CPU Hex-Core
- 96 Go de RAM (12 DIMM basse tension de 8 Go)
- 2 disques durs SAS 15k de 146 Go
- 2 alimentations redondantes de 750 W
Tous les micrologiciels mis à jour depuis la dernière version du DVD HP Service Pack pour ProLiant.
En appelant HP et en parcourant Interwebz, j'ai déjà entendu parler d'une mauvaise interaction avec ILO 3, mais cela se produit également avec le serveur sur une console physique. HP a également suggéré une source d'alimentation, mais celle-ci se trouve dans un rack de centre de données alimentant avec succès les autres systèmes de production.
Existe-t-il une possibilité d'interaction médiocre entre les modules DIMM basse tension et les alimentations de 750 W? Ce serveur doit être une configuration prise en charge.