(initialement publié sur serverfault )
Donc, plutôt que de deviner quelle est la cause (bien que mon argent soit sur les pilotes nvidia), où dois-je commencer à chercher à cerner certains faits?
J'ai parcouru / var / log à plusieurs reprises mais il y a BEAUCOUP de trucs dedans et je ne peux pas (encore) repérer les bits importants.
Contexte: la version courte
Je suis passé de WinXP à Ubuntu Karmic juste après qu'il soit devenu disponible.
Depuis lors, j'ai eu une série d' accidents apparemment aléatoires qui se manifestent comme suit:
- un redémarrage spontané
- un verrouillage complet avec mon clavier et ma souris USB qui ne répondent plus (jusqu'à ce que les LED s'éteignent). De plus, je ne pourrai généralement pas accéder à la boîte lorsque cela se produit.
J'ai fait beaucoup de recherches et Nvidia semble être le principal suspect, mais je ne sais pas par où commencer à chercher quelle est la véritable cause.
Un utilisateur par défaut du serveur a suggéré de vérifier la RAM avec MemtextX86 +. Aucune erreur trouvée. La surveillance de la température de la carte vidéo a également été suggérée, que j'examine maintenant.
A part ça, des suggestions quelqu'un?
Contexte: la version longue
Parfois, je peux passer une semaine entière sans accident puis en avoir 5 en 2 jours.
Motivé par le désir d'éliminer d'éventuels suspects, j'ai fait quelques changements au fil du temps en vain:
- À l'origine, j'utilisais KVM pour la virtualisation, j'utilise maintenant VirtualBox OSE
- J'avais NFS en cours d'exécution dans le noyau, mais maintenant j'utilise Samba
- J'utilisais Compiz mais je l'ai depuis désactivé
- Je suis passé de Karmic 64 bits à 32 bits (pour d'autres raisons également)
- J'ai essayé Ubuntu, Kubuntu et Xubuntu. Même problème à chaque fois (bien que ces derniers temps, il semble être plus fréquent dans Gnome que dans XFCE).
- J'ai restauré le pilote Nvidia de la version 185 à la version 96 (NVIDIA Linux x86 Kernel Module 96.43.13 Thu Jun 25 18:42:21 PDT 2009). Cela semble avoir réduit la fréquence des erreurs.
En termes de ce qui fonctionne à l'époque, cela peut varier. Les éléments suivants sont courants mais n'étaient pas nécessairement exécutés pour chaque plantage:
- Firefox 3.5
- VirtualBox OSE avec 1 ou 2 machines virtuelles Windows XP
- Skype
- Rhythmbox ou Exaile
Mon matériel a 2 à 3 ans:
- Core 2 Duo 6300
- 4 Go de RAM
- une race de carte mère Intel de ce millésime
- une carte vidéo double tête Asus avec chipset Nvdia GeForce 7300 GS
- 2 disques durs SATA
- deux moniteurs (donc je me fie aux pilotes nvidia propriétaires)
Je me suis tenu au courant des mises à jour de mon système.
Espérons que les données ci-dessus pourraient inciter quelqu'un à suggérer un type spécifique de journal ou de configuration qui mériterait d'être étudié.
Mise à jour 1
vient d'avoir un crash dans lequel les haut-parleurs sont devenus fous. J'ai fait quelques recherches sur Google et il semble que PulseAudio ait eu quelques problèmes dans le passé. Je ne sais pas encore si cela est pertinent, mais PulseAudio aura fonctionné chaque fois que j'ai eu un crash.
Update 2
Le lien de @ CarlF vers le guide Debian Sysadmin m'a conduit à la clé magique sysrq que j'essaierai au prochain crash. Non pas que cela me donne beaucoup d'indices sur la cause, mais au moins je l'espère, je pourrai m'arrêter gracieusement.
Mise à jour 3
lm-sensor signale que mon GPU fonctionne à près de 70 ° C / 158 ° F - intéressant. Si je devais deviner, je dirais que c'est un indice important.
Mise à jour 4
Frappez l'intérieur du système avec un airduster peu de temps après ma dernière mise à jour - résultat net: un seul crash depuis. Je vais appeler ça un problème thermique.