J'ai un PC réutilisé fonctionnant en tant que serveur. Il a été assemblé au début de 2014 et contient un processeur Intel Core i7-4770 sur un Gigabyte Z87-HD3. Cela a fonctionné de manière assez fiable jusqu'au début de 2017, quand il a commencé à geler par intermittence (toutes les quelques semaines à quelques mois). Pas de journaux du noyau, pas même les données sur les plantages de pstore ou netconsole ne produisaient rien de significatif. L’écran physique est vide, le réseau ne répond pas, les métriques à 10 secondes ne montrent aucune corrélation avec la charge sur le processeur, la mémoire vive ou le disque. Tous les voyants et les lecteurs fonctionnent toujours, mais il n'y a évidemment plus d'entrées / sorties. La RAM a été testée et est vérifiée, pas de segfaults parasites ou quoi que ce soit qui indiquerait un problème matériel intermittent. Juste gèle dur.
Passons maintenant à la partie très intéressante: lorsque le système entre dans cet état, le bouton de réinitialisation physique cesse de fonctionner complètement. Une fois que j'appuie dessus, rien ne se passe. Il fonctionne définitivement physiquement puisqu'il fonctionne à 100% lorsque le système n'est pas dans cet état. J'ai vérifié les tensions du PSU avec un multimètre et tout va bien. Je peux toujours réinitialiser le serveur en appuyant sur le bouton d'alimentation pendant 5 secondes, puis le démarrage est parfait.
Je ne comprends donc pas ce qui se passe ici et quel matériel est à blâmer. J'ai des analyseurs logiques et je pourrais avoir accès à des oscilloscopes USB, mais rien ne spécifie des échantillons supérieurs à 100 MSPS, je ne peux donc pas analyser les bus réels. Je serais très reconnaissant pour toute idée de ce qui pourrait se passer.