Dans quelle mesure dois-je prendre au sérieux les avertissements d'erreur corrigibles ECC?

J'ai une pile de serveurs Sun X2200-M2. Ces serveurs ont une mémoire ECC.

Sur certains de ces serveurs, je reçois des avertissements dans l'eLOM concernant les "erreurs ECC corrigibles détectées", par exemple:

# ssh regress11 ipmitool sel elist
   1 | 05/20/2010 | 14:20:27 | Memory CPU0 DIMM2 | Correctable ECC | Asserted
   2 | 05/20/2010 | 14:33:47 | Memory CPU0 DIMM2 | Correctable ECC | Asserted

... certains plus fréquemment que d'autres.

Le noyau de ce système particulier génère également des erreurs EDAC, bien qu'avec beaucoup plus de fréquence que l'eLOM enregistre les événements ECC:

EDAC k8 MC0: general bus error: participating processor(local node response), time-out(no timeout) memory transaction type(generic read), mem or i/o(mem access), cache level(generic)
MC0: CE page 0x42a194, offset 0x60, grain 8, syndrome 0xf654, row 4, channel 1, label "": k8_edac
MC0: CE - no information available: k8_edac Error Overflow set
EDAC k8 MC0: extended error code: ECC chipkill x4 error
EDAC k8 MC0: general bus error: participating processor(local node response), time-out(no timeout) memory transaction type(generic read), mem or i/o(mem access), cache level(generic)
MC0: CE page 0x48cb94, offset 0x10, grain 8, syndrome 0xf654, row 5, channel 1, label "": k8_edac
MC0: CE - no information available: k8_edac Error Overflow set
EDAC k8 MC0: extended error code: ECC chipkill x4 error

Maintenant, si le serveur détecte un ECC non corrigible, le système se réinitialise, donc clairement c'est mauvais et retirer / remplacer le bâton ou la paire identifié corrige le problème.

Mais je pense que si l'erreur est corrigible, il n'y a pas de problème immédiat - je peux traiter cela comme un avertissement et être prêt à tirer le bâton / la paire si une erreur non corrigible commence à se produire?

ecc

— David Mackintosh
source

Cela dépend de la fréquence à laquelle vous obtenez l'erreur. Pour diverses raisons, ECC devrait avoir à corriger les erreurs sur un seul bit en moyenne une fois par an. Si vous les obtenez beaucoup plus rapidement que cela, ou s'il s'agit d'erreurs multi-bits, vous devriez vous inquiéter (je remplacerais la RAM dès que possible).

De plus, ECC n'est pas parfait. Il est possible que l'erreur cumulative passe ECC; qui apparaîtrait comme un crash du système d'exploitation ou un problème similaire.

— Chris S
source

Merci. Négocier avec le client pour financer les remplacements.

— David Mackintosh