L'un des sites de mes clients a reçu un coup de foudre direct la semaine dernière (comme par hasard le vendredi 13! ).
J'étais éloigné du site, mais en travaillant avec quelqu'un sur place, j'ai découvert un type de dommages étrange. Les deux liens Internet étaient en panne, la plupart des serveurs étaient inaccessibles. Une grande partie des dommages sont survenus dans le MDF , mais un IDF connecté à la fibre a également perdu 90% des ports d’un membre de la pile de commutateurs. Il y avait suffisamment de ports de commutation disponibles pour redistribuer le câblage ailleurs et reprogrammer, mais il y avait un temps d'arrêt pendant que nous traquions les appareils affectés.
Il s’agissait d’un nouveau bâtiment / entrepôt et la conception de la salle des serveurs a fait l’objet de beaucoup de planification. La salle des serveurs principale est alimentée par un onduleur en ligne à double conversion APC SmartUPS RT 8000VA , soutenu par un générateur. Tous les équipements connectés étaient correctement alimentés. La réplication des données hors site et les sauvegardes des systèmes étaient en place.
Au total, les dégâts (à ma connaissance) sont les suivants:
- Echec de la carte de ligne à 48 ports sur un commutateur de châssis Cisco 4507R-E .
Échec du commutateur Cisco 2960 dans une pile à 4 membres.(oups ... câble d'empilement lâche)- Plusieurs ports floconneux sur un commutateur Cisco 2960.
- Carte mère HP ProLiant DL360 G7 et alimentation.
- Equilibreur de liens WAN Elfiq .
- Un modem fax multitech.
- Antenne Internet WiMax / Fixed-wireless et injecteur de puissance.
- Nombreux périphériques connectés PoE (téléphones VoIP, points d'accès Cisco Aironet, caméras de sécurité IP)
La plupart des problèmes étaient liés à la perte d'une lame de commutateur entière dans le Cisco 4507R-E. Cela contenait une partie de la mise en réseau VMware NFS et la liaison montante vers le pare-feu du site. Un hôte VMWare a échoué, mais HA s'est occupé de la VM une fois la connectivité de stockage en réseau restaurée. J'ai été obligé de redémarrer / redémarrer un certain nombre de périphériques pour effacer les états d'alimentation géniaux. Donc, le temps de récupération a été court, mais je suis curieux de savoir quelles leçons devrait être tirée ...
- Quelles protections supplémentaires devraient être mises en place pour protéger l'équipement à l'avenir?
- Comment dois-je aborder la garantie et le remplacement? Cisco et HP remplacent des articles sous contrat. L'équilibreuse coûteuse Elfiq WAN Link possède un texte de présentation sur son site Web qui dit en gros "tant pis, utilisez un limiteur de surtension réseau ". (on dirait qu'ils s'attendent à ce type d'échec)
- Je suis dans l'informatique depuis assez longtemps pour avoir été endommagé par un orage dans le passé, mais avec un impact très limité. par exemple, l’interface réseau d’un PC bon marché ou la destruction de mini-commutateurs.
- Y a-t-il autre chose que je puisse faire pour détecter le matériel potentiellement squameux, ou dois-je simplement attendre qu'un comportement étrange fasse surface?
- Est-ce que tout ceci était juste de la malchance ou quelque chose qui devrait vraiment être pris en compte dans la reprise après sinistre?
Avec suffisamment de $$$, il est possible de créer toutes sortes de redondances dans un environnement, mais quel est le juste équilibre entre conception préventive / réfléchie et utilisation efficace des ressources?