Comment résoudre les gels aléatoires lorsque le système n'accepte aucune entrée?
J'ai un ordinateur qui exécutait Ubuntu il y a quelques années sans aucun problème (je ne sais pas si un matériel a changé). Récemment, quelle que soit la distribution Linux que j'installe, elle se fige au hasard jusqu'à un point où le curseur est gelé et ne répond à aucune entrée de clavier, y compris alt + sysrq (lorsque le système n'est pas gelé, je peux alt + sysrq REISUB et il redémarrera). Il n'y a pas de réponse dans Que dois-je faire lorsque Ubuntu se fige? qui semblent «fonctionner» dans cette situation.
J'ai déclenché le gel avec les systèmes suivants: Ubuntu 12.04, Ubuntu 14.04, Ubuntu 14.10, Ubuntu 15.04, Ubuntu 15.10, ainsi que Fedora 22 et 23 (toutes les versions 64 bits). Cela arrive avec XFCE, Unity et même Gnome, cela arrive avec nouveau et différentes versions du pilote nvidia propriétaire. Il peut se bloquer même dès l'installation ou lors d'une session en direct. Parfois, le système fonctionnera pendant 5 minutes avant la congélation et parfois deux heures. Le même matériel peut exécuter un système d'exploitation Windows pendant des jours sans problèmes.
J'ai essayé de configurer le vidage sur incident du noyau, mais il ne semble pas se déclencher lorsque le système se bloque. Il n'y a aucune entrée dans syslog ou kern.log qui semble avoir été écrite juste avant le gel. Sur certains blocages, la dernière entrée dans syslog ou kern.log était 30 minutes plus tôt.
Mise à jour: J'ai déconnecté une carte réseau sans fil ainsi qu'une webcam USB, je laisserai la machine fonctionner pendant la nuit pour voir si l'une d'entre elles est à l'origine de cela. Mettra à jour avec les résultats.
Mise à jour 2: il a de nouveau gelé. Je suis littéralement à court d'idées. Toutes suggestions sont les bienvenues.
Update3: Quelques spécifications matérielles qui pourraient être pertinentes:
Carte mère: Sabertooth 990FX R2.0
Processeur: AMD FX-8350 Black Edition
GPU: GeForce GTX 660
Update3:
J'ai récemment mis à niveau le bios du Sabertooth 990FX R2.0 vers la version 2501 (la dernière version actuellement disponible), sans aucune chance.
Mise à jour 4:
J'ai fait un memtest pendant 9 heures, plusieurs passes et pas une seule erreur. Il y a deux barrettes DIMM dans les emplacements 2 et 4 de la carte mère. J'ai maintenant essayé de retirer celui de l'emplacement 4 et je verrai si je peux reproduire le gel. Les échangerai ensuite.
Mise à jour 5:
Il a fonctionné pendant de nombreuses heures sans geler jusqu'à présent, j'ai du mal à me croire. Cela pourrait être résolu, mais je ne comprends pas pourquoi. Je suppose que je vais essayer de lui donner quelques jours pour être sûr.
Mise à jour 6:
Il n'y a pas eu de gel, et je dois conclure qu'ils ont été causés par une mémoire défectueuse. Étant donné que le memtest n'a montré aucune erreur, il est probable que je n'aurais jamais compris ce qui n'allait pas si je n'avais pas commencé à déconnecter les parties «aléatoires». Est-ce vraiment la meilleure approche? Si quelqu'un peut rédiger un moyen plus systématique de procéder à quelque chose comme ça, peut-être avec un dépannage à partir d'Ubuntu, je lui accorderai la prime.