Dans quelle mesure dois-je prendre au sérieux les avertissements d'erreur corrigibles ECC?


8

J'ai une pile de serveurs Sun X2200-M2. Ces serveurs ont une mémoire ECC.

Sur certains de ces serveurs, je reçois des avertissements dans l'eLOM concernant les "erreurs ECC corrigibles détectées", par exemple:

# ssh regress11 ipmitool sel elist
   1 | 05/20/2010 | 14:20:27 | Memory CPU0 DIMM2 | Correctable ECC | Asserted
   2 | 05/20/2010 | 14:33:47 | Memory CPU0 DIMM2 | Correctable ECC | Asserted

... certains plus fréquemment que d'autres.

Le noyau de ce système particulier génère également des erreurs EDAC, bien qu'avec beaucoup plus de fréquence que l'eLOM enregistre les événements ECC:

EDAC k8 MC0: general bus error: participating processor(local node response), time-out(no timeout) memory transaction type(generic read), mem or i/o(mem access), cache level(generic)
MC0: CE page 0x42a194, offset 0x60, grain 8, syndrome 0xf654, row 4, channel 1, label "": k8_edac
MC0: CE - no information available: k8_edac Error Overflow set
EDAC k8 MC0: extended error code: ECC chipkill x4 error
EDAC k8 MC0: general bus error: participating processor(local node response), time-out(no timeout) memory transaction type(generic read), mem or i/o(mem access), cache level(generic)
MC0: CE page 0x48cb94, offset 0x10, grain 8, syndrome 0xf654, row 5, channel 1, label "": k8_edac
MC0: CE - no information available: k8_edac Error Overflow set
EDAC k8 MC0: extended error code: ECC chipkill x4 error

Maintenant, si le serveur détecte un ECC non corrigible, le système se réinitialise, donc clairement c'est mauvais et retirer / remplacer le bâton ou la paire identifié corrige le problème.

Mais je pense que si l'erreur est corrigible, il n'y a pas de problème immédiat - je peux traiter cela comme un avertissement et être prêt à tirer le bâton / la paire si une erreur non corrigible commence à se produire?

Réponses:


10

Cela dépend de la fréquence à laquelle vous obtenez l'erreur. Pour diverses raisons, ECC devrait avoir à corriger les erreurs sur un seul bit en moyenne une fois par an. Si vous les obtenez beaucoup plus rapidement que cela, ou s'il s'agit d'erreurs multi-bits, vous devriez vous inquiéter (je remplacerais la RAM dès que possible).

De plus, ECC n'est pas parfait. Il est possible que l'erreur cumulative passe ECC; qui apparaîtrait comme un crash du système d'exploitation ou un problème similaire.


Merci. Négocier avec le client pour financer les remplacements.
David Mackintosh
En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.