J'ai 15 serveurs Linux RH 4.7 64 bits identiques. Ils exécutent la base de données de cluster (le cluster est au niveau de l'application). À l'occasion (tous les mois environ), une boîte aléatoire (jamais la même) se fige.
Je peux cingler la boîte et cingler fonctionne. Si j'essaye de ssh dans la boite j'obtiens:
ssh_exchange_identification: Connection closed by remote host
SSH est correctement configuré.
Lorsque je vais dans la salle des serveurs et que j'essaie de me connecter directement à la console, je peux changer de console avec Alt+ Fn, je peux entrer un nom d'utilisateur et les caractères s'affichent, mais après avoir appuyé Enter, rien ne se passe. J'ai attendu 8 heures une fois et cela n'a pas changé.
J'ai configuré syslog pour tout enregistrer sur un hôte distant, et il n'y a rien dans ces journaux. Lorsque je redémarre la machine, cela fonctionne sans problème. J'ai exécuté des tests HW - tout va bien et rien n'est dans les journaux. Les machines sont également surveillées avec NAGIOS, et il n'y a pas de charge ou d'activité inhabituelle avant le gel.
Je n'ai plus d'idées; que puis-je faire ou vérifier d'autre?