DELL PowerEdge - Erreur irrécupérable du système lors du démarrage précédent

3

Mon serveur dédié DELL R710 (CentOS 6.4) redémarre tout seul et affiche le message d'erreur suivant.

entrez la description de l'image ici

Cela signifie-t-il que la boîte de dialogue ne peut pas démarrer ou que le noyau est pris de panique lors du démarrage de Linux et que le serveur le sait?

Quelqu'un peut-il donner des conseils sur les diagnostics ou s'il s'agit d'un problème matériel et devrait être transmis au centre de données à qui je loue la boîte? Cela fonctionne bien depuis des mois et maintenant, les deux derniers jours ont redémarré de manière aléatoire.

Mise à jour - Box continue à redémarrer une minute après son fonctionnement, puis la ligne suivante indique le démarrage du noyau sans arrêt ni autre message d'erreur.

Jan 10 16:29:12 squirtle kernel: Firewall: *TCP_IN Blocked* IN=em1 OUT= MAC=84:2b:2b:54:84:58:00:04:96:82:74:3e:08:00 SRC=93.174.93.67 DST=13.129.118.21 LEN=40 TOS=0x00 PREC=0x00 TTL=245 ID=54321 PROTO=TCP SPT=35003 DPT=21320 WINDOW=65535 RES=0x00 SYN URGP=0
Jan 10 16:35:50 squirtle kernel: Firewall: *UDP_IN Blocked* IN=em1 OUT= MAC=84:2b:2b:54:84:58:00:04:96:82:74:3e:08:00 SRC=179.107.38.35 DST=13.129.118.21 LEN=443 TOS=0x00 PREC=0x00 TTL=53 ID=0 DF PROTO=UDP SPT=5067 DPT=5060 LEN=423
Jan 10 16:42:05 squirtle kernel: imklog 5.8.10, log source = /proc/kmsg started.
Jan 10 16:42:05 squirtle rsyslogd: [origin software="rsyslogd" swVersion="5.8.10" x-pid="1203" x-info="http://www.rsyslog.com"] start
Jan 10 16:42:05 squirtle kernel: Initializing cgroup subsys cpuset
Jan 10 16:42:05 squirtle kernel: Initializing cgroup subsys cpu
Jan 10 16:42:05 squirtle kernel: Linux version 2.6.32-431.3.1.el6.i686 (mockbuild@c6b10.bsys.dev.centos.org) (gcc version 4.4.7 20120313 (Red Hat 4.4.7-4) (GCC) ) #1 SMP Fri Jan 3 18:53:30 UTC 2014
Jan 10 16:42:05 squirtle kernel: KERNEL supported cpus:
Jan 10 16:42:05 squirtle kernel:  Intel GenuineIntel
Jan 10 16:42:05 squirtle kernel:  AMD AuthenticAMD
Jan 10 16:42:05 squirtle kernel:  NSC Geode by NSC
Jan 10 16:42:05 squirtle kernel:  Cyrix CyrixInstead
Jan 10 16:42:05 squirtle kernel:  Centaur CentaurHauls
Jan 10 16:42:05 squirtle kernel:  Transmeta GenuineTMx86
Jan 10 16:42:05 squirtle kernel:  Transmeta TransmetaCPU
Jan 10 16:42:05 squirtle kernel:  UMC UMC UMC UMC

Mise à jour 2

J'utilise l'utilitaire stresssur le serveur depuis 4 jours. Le serveur n'a pas redémarré une fois. Son maximum tous les cœurs à 100% du processeur. Je devrai vérifier si le stress utilise la mémoire ou les écritures sur disque, mais pour ce qui est des processeurs, ils semblent OK.

— g18c
source

4

Si le redémarrage est dû à un problème matériel, vous pouvez utiliser IPMI SEL . Il fournira plus d'informations sur les erreurs FATAL. Pouvez-vous vérifier ceux-ci et ajouter cette information?

— Hennes

merci @Hennes Je suppose que je devrai configurer l'adresse IP IPMI sur le serveur? Il continue à redémarrer de manière aléatoire, / var / log ne montre rien d’utilisation

— g18c

Cela ressemble à du matériel. Si le noyau a détecté un problème et a redémarré le serveur, il aurait eu la possibilité de consigner quelque chose dans / var / log / messages. Si l’alimentation ou le matériel a provoqué le redémarrage, le noyau n’a jamais la possibilité de le consigner.

— R Hughes

2

Comme le R710 date de 2009/2010, la défaillance d'un composant est toujours une possibilité.

La documentation de Dell (bien que pour le R410) indique:

Alert! System fatal error during previous boot.
An error caused the system to reboot.
Check other system messages for additional information for possible causes.

Comme le seul autre message que je vois concerne la vitesse du ventilateur, je pense que vous devriez soigneusement examiner et enregistrer la température et ses variations.

Voir par exemple Comment surveiller et consigner les températures et la charge matérielles du serveur .

Il ne fait pas de mal non plus d'ouvrir le serveur, de le nettoyer et de vérifier tous les contacts.

Vous pouvez essayer d’utiliser les outils décrits dans l’article Comment résoudre les problèmes matériels sous Linux et consigner ici leurs résultats.

— harrymc
source

2

Ce message provient du BIOS vous demandant de continuer. Cela signifie que la carte mère a vu quelque chose qu’elle n’a pas aimé au niveau matériel. Le système d'exploitation ne l'aurait pas fait et aurait consigné quelque chose dans le fichier de messages s'il en avait eu la possibilité. Je voudrais demander un diag complet être exécuté sur le serveur. l'invite F1 / F2 est généralement une alerte de mauvaise configuration du BIOS ou une défaillance matérielle.

— R Hughes
source