J'ai besoin d'une nouvelle paire d'yeux.
Nous utilisons une ligne de fibre optique de 15 km à travers laquelle un canal fibrichannel et 10GbE est multiplexé (CWDM à optique passive). Pour le FC, nous avons des lasers longue distance pouvant aller jusqu'à 40 km ( Skylane SFCxx0404F0D ). Le multiplexeur est limité par les SFP qui peuvent faire max. Fibrechannel 4Gb. Le commutateur FC est une série Brocade 5000. Les longueurs d'onde respectives sont 1550,1570,1590 et 1610nm pour FC et 1530nm pour 10GbE.
Le problème est que les tissus 4GbFC ne sont presque jamais propres. Parfois, ils sont pendant un certain temps, même avec beaucoup de trafic sur eux. Ensuite, ils peuvent soudainement commencer à produire des erreurs (CRC RX, codage RX, disparité RX, ...) même avec un trafic marginal sur eux. Je joins quelques graphiques d'erreur et de trafic. Les erreurs sont actuellement de l'ordre de 50 à 100 erreurs par 5 minutes avec un trafic de 1 Gb / s.
Optique
Voici la puissance de sortie d’un port résumée (collectée à l’aide sfpshow
de différents commutateurs)
Unités SITE-A = uW (microwatt) SITE-B ********************************************* FAB1 SW1 TX 1234.3 RX 49.1 SW3 1550nm (ko) RX 95.2 TX 1175.6 FAB2 SW2 TX 1422.0 RX 104.6 SW4 1610nm (ok) RX 54.3 TX 1468.4
Ce que je trouve curieux à ce stade, c’est l’asymétrie des niveaux de puissance. Tandis que SW2 transmet avec 1422uW ce que SW4 reçoit avec 104uW, SW2 ne reçoit que le signal SW4 avec une puissance initiale similaire uniquement avec 54uW.
Vice versa pour SW1-3.
Quoi qu'il en soit, les SFP ont une sensibilité RX allant jusqu'à -18 dBm (environ 20 µW), donc, dans tous les cas, ça devrait aller. Mais rien ne l'est.
Le fabricant a diagnostiqué un dysfonctionnement de certains SFP (ceux à 1550 nm illustrés ci-dessus avec «ko»). Les 1610nm sont apparemment ok, ils ont été testés en utilisant un générateur de trafic. La ligne louée a également été testée plus d'une fois. Tout est dans les tolérances. J'attends les remplaçants, mais pour une raison quelconque, je ne crois pas que cela va améliorer les choses, car les bons apparemment ne produisent pas d'erreur ZERO non plus.
Auparavant, il y avait un équipement actif impliqué (une sorte de ré-amplificateur 4GFC) avant de mettre le signal sur la ligne. Aucune idée pourquoi. Cet équipement a été éliminé à cause des problèmes, de sorte que nous n'avons maintenant que:
- le laser longue distance dans l'interrupteur,
- (nouveau) 10 m de câble monomode LC-SC vers le multiplexeur (pour chaque tissu),
- la ligne louée,
- la même chose mais inversé de l'autre côté du lien.
Commutateurs FC
Voici une configuration de port du brocart portcfgshow
(c'est comme ça des deux côtés, évidemment)
Numéro de zone: 0 Niveau de vitesse: 4G Remplir mot (sur actif) 0 (inactif) Remplir mot (actuel) 0 (inactif) AL_PA Offset 13: OFF Port de coffre activé LS longue distance VC Link Init OFF Distance souhaitée 32 km Tampons réservés 70 Verrouillé L_Port OFF Verrouillé G_Port OFF Désactivé E_Port OFF E_Port verrouillé OFF Mode ISL R_RDY OFF RSCN Supprimé OFF Désactiver persistant OFF Activer LOS TOV sur OFF Capacité NPIV activée QOS E_Port OFF Désactivation automatique du port: OFF Limite de taux OFF Port EX OFF Port miroir OFF Récupération de crédit ON F_Port Buffers OFF Délai d'erreur: 0 (R_A_TOV) NPIV PP Limite: 126 Mode CSCTL: OFF
Forcer les liens vers 2GbFC ne produit pas d'erreur, mais nous avons acheté 4GbFC et nous voulons 4GbFC.
Je ne sais plus où regarder. Des idées quoi essayer ensuite ou comment procéder?
Si nous ne pouvons pas faire fonctionner 4GbFC de manière fiable, je me demande ce que les personnes travaillant avec 8 ou 16 personnes font ... Je ne suppose pas que "quelques erreurs ici et là" soient acceptables.
Oh et BTW, nous sommes en contact avec tous les fabricants (commutateur FC, MUX, SFP, ...). Sauf que les SFP doivent être modifiés (certains ont été modifiés auparavant), personne n’a la moindre idée. Brocade SAN Health dit que le tissu est bon. MUX, eh bien, c'est passif, ce n'est qu'un prisme, la nature à son meilleur.
Des coups dans le noir?
ANNEXE: Réponses à vos questions
@ Chopper3: Il s'agit de la deuxième génération de brocart présentant le problème. Avant nous avions 5000, nous avons maintenant 5100. Au début, alors que nous avions encore le MUX actif, nous avons loué un laser longue distance pour l'insérer directement dans l'interrupteur afin de faire des tests pendant une journée. Ce jour-là, il était propre. Mais comme je l'ai dit, parfois c'est propre comme ça. Et parfois ce n'est pas. Des commutateurs alternatifs impliqueraient de reconstruire le réseau SAN entier avec ceux uniquement à tester. Les SFP alternatifs, eh bien, ils sont difficiles à trouver comme ça.
@ Longneck: La ligne est louée. C'est une fibre noire (monomode 9 µm) donc il n'y a personne d'autre dessus. Bien sûr, il y a des épissures. Je ne peux pas aller regarder mais je dois avoir confiance qu'ils ont été faits correctement. Comme je l'ai dit, la ligne a été vérifiée et revérifiée (à l'aide d'un réflectomètre optique dans le domaine temporel). De toute évidence, vous ne disposez pas de tout cet équipement, car il est beaucoup trop cher.
@ mdpc: Quel serait le "mauvais" type de câble selon vous? Jusqu'au commutateur, tout est monomode, oui. Les connecteurs sont les bons aussi. Oui, je sais qu'il y a les fibres vertes où la fibre est coupée à un certain angle, etc. Mais nous avons les bonnes pour tout ce que je sais.
Rapport de progrès n ° 1
Nous avons eu deux tissus (= 2x2 commutateurs) avec Brocade 5100 avec FabricOS 6.4.1 et deux tissus (un autre commutateur 2x4) sur FabricOS 7.0.2.
Sur les ISL longue distance (un dans chaque structure), il est apparu qu'avec FOS 6.4.1, le réglage sur longue distance émet des avertissements sur le réglage VC Init et par conséquent sur le mot de remplissage. Mais ce ne sont que des avertissements. FOS 7.0.2 nécessite que vous apportiez des modifications à VCI et au mot de remplissage pour les liens longue distance.
Le réglage de FOS 6.4.1 sur le paramètre LS (distance statique de longue distance) avec un paramètre VCI et un mot de remplissage incorrect a rendu l'ensemble de la structure inopérante (bloquée dans une boucle SCN, utilisez fabriclog -s
pour voir, vous ne la voyez nulle part ailleurs, aucune erreur de port compteurs ou quoi que ce soit en augmentation).
Actuellement, je donne un battement au tissu avec l'IMHO plus correct et il semble bien fonctionner, tandis que l'autre, sans trop de trafic, a encore des erreurs ici et là.
En bref:
- Nous avons éliminé la partie active du MUX (le FC Retimer).
- Nous intégrons les SFP longue distance dans l'équipement final.
- Juste pour être sûr, nous avons acheté de nouveaux câbles monomodes pour connecter l'équipement final à la partie passive restante du MUX.
- Nous essayons maintenant plusieurs configurations longue distance.
C'est presque de la magie noire. Tout ce qui se passe est essentiellement empirique, personne ne semble avoir la moindre idée des raisons exactes pour lesquelles faire quelque chose. ("Nous avons essayé cela, et cela n'a pas fonctionné, puis nous l'avons essayé et cela a fonctionné, nous avons donc collé à cela." Mais personne ne semble vraiment savoir pourquoi.)
Je vous tiens au courant.
Rapport d'avancement n ° 2
Les nouveaux lasers de l'un des tissus sont sous garantie. C'est ultra propre même sur 4GbFC.
Ils émettent avec environ 2mW (3dBm) alors que les autres ne font que 1,5mW (1,5dBm) bien que cela devrait vraiment suffire.
L'autre tissu (où les lasers sont apparemment corrects) produit encore rarement un ou deux CRC.
Utilisation sfpshow
du SFP produisant les erreurs d’impression RX réelles
Statut / Ctrl: 0x82 Indicateurs d'alarme [0,1] = 0x5, 0x40 Avertissements [0,1] = 0x5, 0x40
Maintenant, je vais devoir savoir ce que cela signifie. Je ne sais pas si c'était là avant.
Eh bien, je vais d'abord me vider la tête d'une semaine de vacances. 8-)