Nous avons quelques dizaines de serveurs Proxmox (Proxmox fonctionne sur Debian), et environ une fois par mois, l'un d'eux panique et se bloque. Le pire de ces verrouillages est que lorsqu'il s'agit d'un serveur qui se trouve sur un commutateur distinct du maître de cluster, tous les autres serveurs Proxmox sur ce commutateur cesseront de répondre jusqu'à ce que nous puissions trouver le serveur qui s'est réellement écrasé et le redémarrer.
Lorsque nous avons signalé ce problème sur le forum Proxmox, il nous a été conseillé de passer à Proxmox 3.1 et nous sommes en train de le faire depuis plusieurs mois. Malheureusement, l'un des serveurs que nous avons migrés vers Proxmox 3.1 s'est bloqué vendredi avec une panique du noyau, et à nouveau tous les serveurs Proxmox qui étaient sur ce même commutateur étaient inaccessibles sur le réseau jusqu'à ce que nous puissions localiser le serveur en panne et le redémarrer.
Eh bien, presque tous les serveurs Proxmox sur le commutateur ... J'ai trouvé intéressant que les serveurs Proxmox sur ce même commutateur qui étaient toujours sur Proxmox version 1.9 n'aient pas été affectés.
Voici une capture d'écran de la console du serveur en panne:
Lorsque le serveur s'est verrouillé, les autres serveurs du même commutateur qui exécutaient également Proxmox 3.1 sont devenus inaccessibles et ont craché ce qui suit:
e1000e 0000:00:19.0: eth0: Reset adapter unexpectedly
e1000e 0000:00:19.0: eth0: Reset adapter unexpectedly
e1000e 0000:00:19.0: eth0: Reset adapter unexpectedly
...etc...
uname -a sortie du serveur verrouillé:
Linux ------ 2.6.32-23-pve #1 SMP Tue Aug 6 07:04:06 CEST 2013 x86_64 GNU/Linux
pveversion -v sortie (en abrégé):
proxmox-ve-2.6.32: 3.1-109 (running kernel: 2.6.32-23-pve)
pve-manager: 3.1-3 (running version: 3.1-3/dc0e9b0e)
pve-kernel-2.6.32-23-pve: 2.6.32-109
Deux questions:
Des indices sur la cause de la panique du noyau (voir l'image ci-dessus)?
Pourquoi d'autres serveurs sur le même commutateur et la même version de Proxmox seraient-ils déconnectés du réseau jusqu'à ce que le serveur verrouillé soit redémarré? (Remarque: il y avait d'autres serveurs sur le même commutateur qui exécutaient l'ancienne version 1.9 de Proxmox qui n'étaient pas affectés. En outre, aucun autre serveur Proxmox dans le même cluster 3.1 n'a été affecté qui n'était pas sur ce même commutateur.)
Merci d'avance pour tout conseil.