Erreur matérielle générique APEI

9

Au cours de la semaine dernière, mon serveur (exécutant Debian Jessie) a redémarré deux fois. Dans le syslog, je vois cela avant chaque redémarrage, et à aucun autre moment:

Aug 15 13:32:58 hoshimiya kernel: [296512.005355] {1}[Hardware Error]: Hardware error from APEI Generic Hardware Error Source: 1
Aug 15 13:32:58 hoshimiya kernel: [296512.005360] {1}[Hardware Error]: It has been corrected by h/w and requires no further action
Aug 15 13:32:58 hoshimiya kernel: [296512.005361] {1}[Hardware Error]: event severity: corrected
Aug 15 13:32:58 hoshimiya kernel: [296512.005362] {1}[Hardware Error]:  Error 0, type: corrected
Aug 15 13:32:58 hoshimiya kernel: [296512.005363] {1}[Hardware Error]:  fru_text: CorrectedErr
Aug 15 13:32:58 hoshimiya kernel: [296512.005364] {1}[Hardware Error]:   section_type: memory error
Aug 15 13:32:58 hoshimiya kernel: [296512.005365] [Firmware Warn]: error section length is too small

Une recherche sur Google me porte à croire que cela a à voir avec ma RAM ECC détectant et récupérant d'une erreur. Est-ce correct? S'il se rétablit, pourquoi le système redémarre-t-il? Je voudrais empêcher le système de redémarrer, si possible.

hardware

— moujik
source

9

Il semble que votre RAM soit défaillante ou que des erreurs soient corrigées. Selon la gravité, il semble que ces erreurs ont un impact sur sa capacité à fonctionner et qu'il doit redémarrer par la suite.

D'après l'apparence de ce fil, le bit de message à la fin indiquant que la longueur de la section d'erreur est trop petite est probablement le coupable.

extrait - [PATCH 1/1] efi: cper: prend en charge différentes longueurs de section d'erreur

Certains champs peuvent être ajoutés à la section d'erreur dans la nouvelle spécification UEFI. Par exemple, les champs «Réservé», «Numéro de classement», «Poignée de carte» et «Poignée de module» sont ajoutés à la section d'erreur de mémoire démarrée à partir de la spécification UEFI 2.3. Malheureusement, le message d'avertissement suivant s'affiche si l'erreur de mémoire corrigée est détectée et que le champ «révision» dans la structure acpi_generic_data est inférieur à 0x203 (spécification UEFI 2.3):
{1}[Hardware Error]: Hardware error from APEI Generic Hardware Error Source: 3
{1}[Hardware Error]: It has been corrected by h/w and requires no further action
{1}[Hardware Error]: event severity: corrected
{1}[Hardware Error]:  Error 0, type: corrected
{1}[Hardware Error]:   section_type: memory error
[Firmware Warn]: error section length is too small
Ce comportement provoque cette erreur corrigée ne peut pas être affichée correctement. Pour résoudre le problème, ce correctif prend en charge différentes longueurs de la section d'erreur pour différentes versions de spécifications UEFI.

Et, ce patch utilise une structure prédéfinie pour nettoyer les codes dupliqués dans la fonction cper_estatus_print_section.

Avec l'application de ce patch, l'erreur corrigée en mémoire peut s'afficher correctement après l'injection de l'erreur.

Testé sur v3.14-rc5 avec la plate-forme Grantley et Intel RAStool.

Il semblerait donc qu'un correctif pour cette erreur particulière soit en cours et pourrait être disponible dans une version plus récente du noyau.

— slm
source

3

Pour info, je semble avoir un problème très similaire à celui-ci.

Il s'est avéré que la solution était de retirer la mémoire et de la réinstaller, et tout était revenu à la normale.

— Darren Harrison
source