Problème de débit réseau (lié à ARP)


9

Le petit collège où je travaille a des problèmes de réseau très étranges. Je recherche des conseils ou des idées ici. Nous étions bien pendant l'été, mais les ennuis ont commencé quelques jours après le retour des étudiants sur le campus en vigueur pour le trimestre d'automne.

Symptômes

Le principal symptôme est que l'accès à Internet fonctionnera, mais c'est très lent ... souvent au point d'expiration. Par exemple, un résultat typique de Speedtest.net renverra un téléchargement de 0,4 Mbps, mais autorisera une vitesse de téléchargement de 3 à 8 Mbps. Les symptômes mineurs peuvent inclure des performances très limitées lors du transfert de données vers et depuis notre serveur de fichiers, ou même dans certains cas, l'impossibilité de se connecter à l'ordinateur (ne peut pas atteindre le contrôleur de domaine). Le problème traverse plusieurs vlans et a affecté des appareils sur presque tous les vlan que nous exploitons.

Le problème n'a pas d'impact sur toutes les machines du réseau. Une machine non affectée verra généralement au moins 11 Mbit / s de téléchargement à partir de speedtest.net, et peut-être beaucoup plus selon les modèles de trafic sur le campus à l'époque.

Il existe une variation sur la question plus large. Nous avons un vlan où les utilisateurs n'ont pas pu se connecter à presque toutes les machines. Le personnel informatique se connectait à l'aide d'un compte d'administrateur local (ou dans certains cas, des informations d'identification mises en cache), et à partir de là, une version / renouvellement ou un ping de la passerelle permettait à la machine de fonctionner ... pendant un certain temps. Pour compliquer ce problème, ce vlan couvre nos laboratoires informatiques, qui utilisent un logiciel appelé Deep Freeze pour réinitialiser complètement les disques durs après un redémarrage. Il pourrait simplement y avoir le même problème se manifestant différemment en raison de données périmées sur des machines qui n'ont pas modifié de manière permanente les informations de bas niveau depuis des semaines. Nous avons cependant pu résoudre ce problème en créant un nouveau vlan et en déplaçant les laboratoires vers le nouveau vlan en gros.

Instigations

Finalement, nous avons remarqué que les machines concernées avaient toutes des baux dhcp récents. Nous pouvons prédire quand une machine deviendra "lente" en regardant quand un bail DHCP arrive à renouvellement. Nous avons joué avec un temps de location très court pour un vlan de test, mais tout ce qui a été fait a été de supprimer notre capacité à prédire quand la machine deviendrait lente. Les machines avec des adresses IP statiques ont pratiquement toujours fonctionné normalement. La libération / le renouvellement manuel d'une adresse ne ralentira jamais une machine. En fait, dans certains cas, ce processus a corrigéune machine dans cet état. Mais la plupart du temps, cela n'aide pas. Nous avons également remarqué que les machines mobiles comme les ordinateurs portables deviendront probablement lentes lorsqu'elles passeront à de nouveaux vlans. La connexion sans fil sur le campus est divisée en "zones", où chaque zone correspond à un petit ensemble de bâtiments. Déménager dans un nouveau bâtiment peut vous placer dans une zone, vous obligeant ainsi à obtenir une nouvelle adresse. Une machine sortant du mode veille est également très susceptible d'être lente.

Atténuation

Parfois, mais pas toujours, l'effacement du cache arp sur une machine affectée lui permettra de fonctionner à nouveau normalement. Comme déjà mentionné, la publication / le renouvellement de l'adresse IP d'une machine locale peut réparer cette machine, mais ce n'est pas garanti. Le ping de la passerelle par défaut peut également parfois aider avec une machine lente.

Ce qui semble aider le plus à atténuer le problème est de vider le cache arp sur notre commutateur de couche 3 de base. Ce commutateur est utilisé pour notre système DHCP comme la passerelle par défaut sur tous les réseaux locaux virtuels, et il gère le routage inter-Vlan. Le modèle est un 3Com 4900SX. Pour essayer d'atténuer le problème, nous avons défini le délai d'expiration du cache sur le commutateur jusqu'au temps le plus bas possible, mais cela n'a pas aidé. J'ai également mis en place un script qui s'exécute toutes les quelques minutes pour se connecter automatiquement au commutateur et réinitialiser le cache. Malheureusement, cela ne fonctionne pas toujours et peut même entraîner le ralentissement de certaines machines pendant une courte période (bien que celles-ci semblent se corriger après quelques minutes). Nous avons actuellement un travail planifié qui s'exécute toutes les 10 minutes pour forcer le commutateur principal à vider son cache ARP, mais cela est loin d'être parfait ou souhaitable.

la reproduction

Nous avons maintenant une machine d'essai que nous pouvons forcer à volonté à l'état lent. Il est connecté à un commutateur avec des ports configurés pour chacun de nos vlans. Nous rendons la machine lente en nous connectant à différents réseaux locaux virtuels, et après une nouvelle connexion ou deux, elle sera lente.

Il convient également de noter dans cette section que cela s'est déjà produit au début des mandats précédents, mais dans le passé, le problème a disparu de lui-même après quelques jours. Il s'est résolu avant que nous ayons eu l'occasion de faire beaucoup de travail de diagnostic ... d'où la raison pour laquelle nous l'avons laissé traîner si longtemps dans le terme cette fois; on s'attendait à ce que cette situation soit de courte durée.

Autres facteurs

Il convient de mentionner que nous avons eu environ une demi-douzaine de commutateurs qui ont tout simplement échoué au cours de la dernière année. Ce sont principalement des 3Coms de l'ère 2003/2004 (principalement des 4200) qui ont toutes été installées à peu près au même moment. Ils doivent toujours être couverts par la garantie, l'achat de HP a rendu le service quelque peu difficile. Surtout dans les alimentations qui ont échoué, mais dans quelques cas, nous avons utilisé une alimentation provenant d'un commutateur avec une carte mère défectueuse pour ramener un commutateur avec une alimentation défectueuse à la vie. Nous avons actuellement des onduleurs sur tous les commutateurs, sauf trois, mais ce n'était pas le cas lorsque j'ai commencé il y a deux ans et demi. Des contraintes budgétaires sévères (nous étions sur la liste des institutions financièrement défavorisées du Département d'Ed il y a quelques années) m'ont obligé à me tourner vers Netgear et TrendNet pour des remplacements,

Il convient également de mentionner que le grand changement sur notre réseau cet été a été la migration d'un SSID sans fil inter-campus unique vers l'approche zonée mentionnée précédemment. Je ne pense pas que ce soit la source du problème, comme je l'ai dit: nous l'avons déjà vu. Cependant, il est possible que cela exacerbe le problème et peut être en grande partie la raison pour laquelle il a été si difficile à isoler.

Diagnostic

Au début, il nous a semblé clair, étant donné le calendrier et la nature persistante du problème, que la source du problème était une machine étudiante infectée (ou malveillante) faisant un empoisonnement du cache ARP. Cependant, les tentatives répétées d'isoler la source ont échoué. Ces tentatives incluent de nombreuses traces de paquets Wharkshark et même la mise hors ligne de bâtiments entiers pendant de courtes périodes. Nous n'avons même pas pu trouver une mauvaise entrée ARP de pistolet fumant. Ma meilleure estimation actuelle est un commutateur de base surchargé ou défaillant, mais je ne sais pas comment le tester, et le coût de le remplacer aveuglément est élevé.

Encore une fois, toutes les idées ont été appréciées.

Mise à jour: le
commutateur principal est remplacé. Après 4 jours, tout se passe bien ... mais j'attendrai les deux semaines avant d'appeler le problème résolu.


Voyez-vous une perte de paquets sur les machines concernées? Si oui, où se produit la perte de paquets? mtrpeut être utile ici.
EEAA

3
Cela ressemble étrangement à si l'un de vos commutateurs est défectueux, corrompant ses tables d'arp et propageant les entrées corrompues aux autres commutateurs. D'où le soulagement partiel lorsque les tableaux sont effacés sur le noyau L3. Je vous recommande fortement de réinitialiser TOUS les commutateurs avant de nouvelles tentatives de dépannage. Avec un peu de chance, cela résout complètement le problème. Si un commutateur est vraiment défectueux, il faut espérer qu'il échoue à ses diagnostics de mise sous tension après le redémarrage. PS De légères fluctuations dans le réseau électrique peuvent avoir cet effet. Si vos commutateurs ne sont pas sur UPS, cela peut être la cause première.
Tonny

@ErikA nous avons une certaine perte de paquets. Je vais voir si je peux obtenir une meilleure trace ... mais la perte de paquets vient de chaque emplacement sur le campus, ce qui signifie que le seul point de connexion commun est le commutateur principal et le commutateur connecté à nos serveurs.
Joel Coel

1
@Tonny Nous avons réinitialisé tous les commutateurs (enfin, presque tous) au moins deux fois dans le cadre du dépannage. Cela a semblé réduire (et non éliminer) les plaintes pendant environ un jour / jour et demi. Nous avons environ 40 unités de commutation, avec des onduleurs pour tous sauf trois ou quatre. L'essentiel ici est que tous nos commutateurs ont été installés à peu près au même moment, et nous avons eu 6 pannes directes au cours de la dernière année, il y a donc beaucoup de crédibilité à cela.
Joel Coel

1
Je n'ai aucune expérience 3com, mais il existe peut-être un moyen de limiter le nombre d'adresses mac apprises à partir d'un port donné. Vous pouvez le faire sur tous les ports d'accès pour les ordinateurs des étudiants au cas où une inondation de mac transformerait vos commutateurs en concentrateurs.
Bad Dos

Réponses:


2

Joel,

Puisque vous avez configuré les trunks et pouvez dupliquer le problème à volonté. Installez Wireshark sur un ordinateur portable et mettez en miroir / étendez un port de liaison montante. Si vous voyez le taux de paquets supérieur à 10 000 ou l'utilisation du port près de la vitesse maximale, vous avez un problème.

Vous pourriez avoir un problème de matériel / d'arbre couvrant. Normalement, j'ai trouvé des utilisateurs qui connectaient les deux cartes réseau sur leur machine "pour obtenir plus de débit".

Normalement, pour les problèmes de Spanning Tree, vous pouvez activer la détection de boucle ou la limitation de diffusion par port auprès de votre fournisseur. Cela tuera tout port avec une boucle trouvée. Vous pouvez également activer la "protection bpdu", ce qui signifie désactiver le port sur lequel le bpdu a été reçu et envoyer une erreur aux récepteurs d'interruption syslog / snmp.

Joe


1

J'ai déjà rencontré des problèmes similaires à celui-ci et cela a été une boucle dans le LAN, ce qui provoque le chaos et la saturation de l'ensemble du sous-réseau (probablement à partir du trafic de diffusion en raison du commutateur voyant son propre MAC sur un port supplémentaire).

EDIT: En outre, cela est courant dans les établissements d'enseignement (deux de mes précédents emplois d'administrateur système), car les petits chéris aiment jouer avec les câbles / prises de raccordement ...


Nous avons passé beaucoup de temps à vérifier exactement cela, mais nous l'avons finalement exclu.
Joel Coel

0

Cela me semble que vous avez un mauvais matériel qui provoque des tempêtes de diffusion. Utilisez Wireshark pour regarder les émissions et trouver un hôte qui vous pose problème ...


Il est très peu probable que ce soit le cas si certaines machines fonctionnent bien et d'autres non. Une tempête de diffusion mettra l'ensemble du VLAN à genoux en un rien de temps.
Paul Gear

0

L'idée de Joe est bonne, mais étant donné qu'il ne risque pas d'être une tempête de diffusion créant votre problème (je pense que vous êtes sur la bonne voie avec l'empoisonnement du cache ARP ou un problème similaire; il pourrait même s'agir d'un conflit d'adresse IP), cela ne résoudra probablement pas le problème.

Une technique connexe pour utiliser l'inspection dynamique ARP et DHCP, si vos commutateurs la prennent en charge. Si vous activez cette option, les commutateurs surveillent les transactions DHCP et n'autorisent que les entrées ARP qui correspondent aux entrées connues de la base de données DHCP ou à celles que vous avez spécifiées manuellement.

Si vos commutateurs ne disposent pas de cette fonctionnalité, une autre option pour la retrouver est l'arpwatch de l'utilitaire Linux - il garde une trace de toutes les requêtes ARP et vous indique quand il remarque un changement de mappage IP-MAC.

En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.