Cela dépend du matériel de votre serveur. Une boîte blanche ou un système Supermicro traitera cela différemment d'un Dell, HP ou IBM ...
L'une des caractéristiques à valeur ajoutée des serveurs haut de gamme est qu'il existe un niveau d'intégration matériel / système d'exploitation. Des serveurs plus agréables indiqueront ce que vous recherchez dans le cadre des agents de gestion et / ou de la solution de gestion hors bande (ILO, DRAC, IPMI).
Vous devez utiliser les outils natifs de votre plate-forme matérielle.
Extrait d'un serveur HP ProLiant exécutant Linux et les agents de gestion HP:
Trap-ID=6056
ECC Memory Correctable Errors detected.
et
Trap-ID=6052
Advanced ECC Memory Engaged
ou plus grave
Trap-ID=6029
A correctable memory log entry indicates a memory module needs to be
replaced.
ou le pire ... Ignorer une erreur pendant 6 jours jusqu'à ce que le serveur plante en raison d'une mauvaise RAM
0004 Repaired 22:21 12/01/2008 22:21 12/01/2008 0001
LOG: Corrected Memory Error threshold exceeded (Slot 1, Memory Module 1)
0007 Repaired 02:58 12/07/2008 02:58 12/07/2008 0001
LOG: POST Error: 201-Memory Error Single-bit error occured during
memory initialization,
Board 1, DIMM 1. Bank containing DIMM(s) has been disabled.
0008 Repaired 19:31 12/08/2009 19:31 12/08/2009 0001
LOG: ASR Detected by System ROM
Ceux-ci ont été enregistrés, ainsi que des pièges SNMP et des e-mails ont été envoyés.
De manière générale, vous verrez les exceptions de vérification de la machine dans le tampon d'anneau du noyau, vous pouvez donc vérifier dmesg
ou exécuter mcelog . Dans mes expériences avec les engins Supermicro sans IPMI, cela n'a pas tout attrapé, et j'ai toujours eu des erreurs de RAM glissant à travers les fissures et provoquant des pannes. Malheureusement, cela a conduit à des politiques de rodage de la RAM archaïques avant les déploiements du système.