Pour un projet, nous avons 50 serveurs tous équipés (généralement) du même matériel. Le problème que nous avons ici est très grave et se produit sur toutes les machines. Malgré beaucoup d'efforts et de contacts avec les fabricants et les développeurs de logiciels, tout le monde se pointe et refuse même de me donner un indice sur ce qui se passe.
Permettez-moi d'abord de décrire la configuration. Il s'agit de matériel «servergrade». Pour ma première expérience, servergrade est la plus grande déception de ma vie.
- SuperMicro X10SDV-8C + -LN2F
- Intel Xeon D-1540 (intégré sur la carte mère)
- Boîtier 1U personnalisé ou boîtier d'origine SuperMicro
- PSU serveur 480 watts ou bloc d'alimentation SuperMicro original 200 watts
- Disque SSD Samsung Evo 850 500 Go
- 32 Go DDR4-2133 ECC ou NON-ECC (mais pas mélangés dans le même serveur)
- Processeur graphique Asus GT730 4 Go DDR3
- Le GPU est monté avec une carte de montage PCIe (pas de ruban), sans nom de Chine ou d'origine SuperMicro
Fonctionnant sur le système - Windows Server 2012 R2 Enterprise - VMWare Workstation 12 - Exécuter des tâches gourmandes en GPU - Ce système est en stock, il n'y a pas de sur / sous-cadencement du tout
Symptômes - BSOD aléatoire 0x09c (alias Machine_Check_Exception): parfois le système fonctionne pendant une semaine sans problème, parfois en panne après seulement 10 minutes, mais la plupart du temps il s'exécute pendant quelques heures.
Déjà essayé / vérifié:
- BIOS mis à jour vers la dernière version (je pense maintenant que cela a amélioré le temps de stabilité du système, mais cela aurait pu être aléatoire).
- Windows mis à jour vers la dernière version.
- VMWare mis à jour vers la dernière version.
- Échange tous les composants et a essayé toutes les options différentes, a même essayé une alimentation ATX de bureau et un SSD M.2.
- Installé tous les systèmes à partir de zéro avec Ubuntu. Je ne connais pas Linux et je n'ai jamais vu de BSOD Linux et je ne l'ai toujours pas vu car les systèmes serveurs sont sans tête et j'ai essayé cela dans le DC. RÉSULTAT: le système se bloquait et après le redémarrage, Linux a signalé un crash XORG (lié au GPU).
- Modification du paramètre GPU dans le BIOS en `` Au-dessus de 4G '', le reste du BIOS est réglé par défaut en usine.
Aussi informatif:
- Les systèmes sont situés dans un centre de données. La température, l'air, l'électricité et le réseau sont optimaux.
- Les températures sont bien en dessous du maximum d'usine
- Nous avons exactement la même configuration logicielle exécutée sur les ordinateurs de bureau (avec le matériel de bureau). Ces systèmes peuvent fonctionner correctement avec 1 de nos 100 PC se brisant chaque mois.
- J'ai contacté VMWare, disons qu'il s'agit d'un problème matériel
- J'ai contacté SuperMicro, ils ne disent rien, sauf certaines choses et ont déjà essayé et aussi que cela pourrait encore être un problème logiciel.
Nous sommes désespérés ici. Heureusement, l'application que nous exécutons est en quelque sorte redondante. Si un serveur et ses machines virtuelles y tombent, ce n'est pas un problème, d'autres serveurs prendront en charge la charge dans les 5 minutes, mais à ce rythme, je dois être en ligne toute la journée pour redémarrer les serveurs.
J'ai une grande connaissance du matériel mais cela va au-delà, j'ai cherché toute la journée pendant plus d'un mois en essayant toutes sortes de choses différentes. Le fait que ces cartes mères soient utilisées avec des fournisseurs d'hébergement à grande échelle me fait suspecter que la carte en elle-même est correcte. Ce n'est certainement pas un problème matériel spécifique pour RMA car les 50 cartes présentent les mêmes symptômes. La seule chose différente avec nous est le GPU. Ceci en combinaison avec l'expérience Linux me fait suspecter que c'est définitivement quelque chose sur la voie PCIe. Le GPU lui-même est stable sur les mobos de bureau. Malgré sa grande capacité de mémoire, c'est un petit GPU qui ne consomme pas beaucoup d'énergie. Je soupçonnerais les cartes de montage chinoises, mais là encore, nous utilisons également des cartes de montage certifiées SuperMicro et elles ne montrent aucune amélioration.
Je cherche désespérément une solution ici. Cela commencera par déterminer la cause exacte. Nous sommes prêts à payer une belle prime à un expert qui peut analyser certaines décharges et nous donner plus de détails (ou encore mieux, une solution).
Sincères amitiés,
Simon