Comment puis-je trouver quelle mémoire a une erreur CE?


12

Dans /var/log/kern.log:

kernel: [13291329.657499] EDAC MC0: 48 CE error on CPU#0Channel#2_DIMM#0 (channel:2 slot:0 page:0x0 offset:0x0 grain:8 syndrome:0x0)

Ceci est le edacjournal, l'une des ceerreurs de mémoire .

J'ai lu edac doc

Dual channels allows for 128 bit data transfers to the CPU from memory.
Some newer chipsets allow for more than 2 channels, like Fully Buffered DIMMs
(FB-DIMMs). The following example will assume 2 channels:


            Channel 0   Channel 1
    ===================================
    csrow0  | DIMM_A0   | DIMM_B0 |
    csrow1  | DIMM_A0   | DIMM_B0 |
    ===================================

    ===================================
    csrow2  | DIMM_A1   | DIMM_B1 |
    csrow3  | DIMM_A1   | DIMM_B1 |
    ===================================

et trouvez le canal d'erreur:

$ grep "[0-9]" /sys/devices/system/edac/mc/mc*/csrow*/ch*_ce_count
/sys/devices/system/edac/mc/mc0/csrow0/ch0_ce_count:0
/sys/devices/system/edac/mc/mc0/csrow0/ch1_ce_count:0
/sys/devices/system/edac/mc/mc0/csrow0/ch2_ce_count:144648966
/sys/devices/system/edac/mc/mc0/csrow1/ch0_ce_count:0
/sys/devices/system/edac/mc/mc1/csrow0/ch0_ce_count:0
/sys/devices/system/edac/mc/mc1/csrow0/ch1_ce_count:0
/sys/devices/system/edac/mc/mc1/csrow0/ch2_ce_count:0
/sys/devices/system/edac/mc/mc1/csrow1/ch0_ce_count:0
/sys/devices/system/edac/mc/mc1/csrow1/ch1_ce_count:0

et il devrait être mc0/csrow0/ch2, comme le doc, le DIMM devrait être DIMM_C0, et peut être trouvé par dmidecode:

Mais je ne trouve pas ce module DIMM, donc je ne sais pas quelle mémoire a un problème:

$ dmidecode -t memory | grep 'Locator: PROC'
        Locator: PROC 1 DIMM 2A
        Locator: PROC 1 DIMM 1D
        Locator: PROC 1 DIMM 4B
        Locator: PROC 1 DIMM 3E
        Locator: PROC 1 DIMM 6C
        Locator: PROC 1 DIMM 5F
        Locator: PROC 2 DIMM 2A
        Locator: PROC 2 DIMM 1D
        Locator: PROC 2 DIMM 4B
        Locator: PROC 2 DIMM 3E
        Locator: PROC 2 DIMM 6C
        Locator: PROC 2 DIMM 5F

Il y a 12 emplacements et 9 emplacements ont de la mémoire.

Alors, comment savoir quelle mémoire a un problème?


Supplément:

System Information
        Manufacturer: HP
        Product Name: ProLiant DL180 G6

De quel type de serveur s'agit-il? Fabricant et modèle du serveur.
ewwhite

@ewwhite, salut, j'ai mis à jour la question avec les informations système.
Tanky Woo

Quel système d'exploitation utilisez-vous?
ewwhite

@ewwhite OS is Ubuntu 12.04, Kernel is3.10.20
Tanky Woo

Oh, je suis désolé ... Ubuntu n'est pas vraiment pris en charge sur ce matériel , donc vous perdez la capacité de le surveiller correctement en n'utilisant pas RHEL / CentOS / Debian / SuSE ...
ewwhite

Réponses:


8

Votre module DIMM est probablement - Locator: PROC 1 DIMM 5F

CPU # 0Channel # 2_DIMM # ​​0 signifie:

PROC 1, 
1D,2A = Channel 0  
3E,4B = Channel 1
5F,6C = Channel 2

5F = DIMM 0
6C = DIMM 1

Éditer:

Lorsque vous posez des questions, plus d'informations sont toujours meilleures ... Avoir le fabricant et le modèle du serveur aurait simplifié cela:

Voici le schéma de mémoire des Quickspecs HP ProLiant DL180 G6 :

entrez la description de l'image ici

Ma suggestion que le module DIMM dans l'emplacement CPU # 1 est correct ... Mais c'est du matériel HP. Vous ne devriez pas avoir à deviner !!

Vous devez utiliser les agents de gestion HP, car ils peuvent alerter et fournir des détails spécifiques à la plate-forme sur la santé et l'état du matériel ...

[root@veloce ~]# hpasmcli
HP management CLI for Linux (v2.0)
Copyright 2008 Hewlett-Packard Development Group, L.P.

--------------------------------------------------------------------------
This server ProLiant DL180 G6  , is a Proliant 100 Series Server.
NOTE: Some hpasmcli commands may not be supported on 100 series servers.
      Type 'help' to get a list of all top level commands.
--------------------------------------------------------------------------
hpasmcli> show dimm
Cartridge #:    0
Processor #:    1
Module #:       2
Present:        Yes
Form Factor:    fh
Memory Type:    5h
Size:           4096 MB
Speed:          1333 MHz
Status:         N/A

Cartridge #:    0
Processor #:    1
Module #:       1
Present:        Yes
Form Factor:    fh
Memory Type:    5h
Size:           4096 MB
Speed:          1333 MHz
Status:         N/A

Cartridge #:    0
Processor #:    1
Module #:       4
Present:        Yes
Form Factor:    fh
Memory Type:    5h
Size:           4096 MB
Speed:          1333 MHz
Status:         N/A

Cartridge #:    0
Processor #:    1
Module #:       6
Present:        Yes
Form Factor:    fh
Memory Type:    5h
Size:           4096 MB
Speed:          1333 MHz
Status:         N/A

merci, y a-t-il un document publié?
Tanky Woo

@TankyWoo Oui, voir ci-dessus.
ewwhite

PROC1 DIMM 5Fn'ont pas de mémoire. Vous voulez donc dire que l'emplacement n'est pas vraiment confirmé? Dois-je ajouter un miroir deb deb et l'installer hpamsclipour obtenir le bon module DIMM?
Tanky Woo

J'ai installer hp-health, et Statusest N/Aidentique à votre sortie collé.
Tanky Woo

Exécutez hplog -vpour vérifier les entrées dans le journal HP IML.
ewwhite
En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.