Le consensus général semble être que la réponse à votre question se compose de deux parties:
Comment pouvons-nous trouver la source de l'odeur de brûlé drôle?
Vous avez le "Comment" assez bien défini:
- Le "test de reniflement"
- Rechercher de la fumée / de la brume visible
- Parcourez la pièce avec une caméra thermique (IR) pour trouver les points chauds
- Vérifiez la surveillance et les panneaux de l'appareil pour les alertes
Vous pouvez améliorer vos chances de trouver rapidement le problème de plusieurs manières. Une surveillance améliorée est souvent la solution la plus simple. Quelques questions à poser:
- Recevez-vous des alertes de température et d'autres alertes de santé de votre équipement?
- Est-ce que vos systèmes UPS signalent des erreurs à votre système de surveillance?
- Recevez-vous des alarmes de consommation de courant de votre équipement de distribution électrique?
- Les détecteurs de fumée de la pièce sont-ils en rapport avec le système de surveillance? (et peuvent-ils? )
Quand devrions-nous résoudre les problèmes plutôt que de toucher le Big Red Switch?
C'est une question plus intéressante.
Appuyer rapidement sur le commutateur rouge peut coûter très cher à votre entreprise: les rejets d'agents propres peuvent représenter des dizaines de milliers de dollars, ainsi que les coûts de panne / reprise après une mise hors tension d'urgence (EPO, "chuter la salle") ) peut être dévastateur.
Vous ne voulez pas laisser tomber un centre de données, car un condensateur d’une source d’alimentation est tombé et a fait sentir la pièce.
Inversement, un incendie dans une salle de serveurs peut coûter à votre entreprise ses données / équipements, et plus important encore, la vie de votre personnel.
Dépanner "cette drôle d’odeur de brûlé" ne doit jamais primer sur la sécurité , il est donc important d’avoir des règles claires sur la résolution des problèmes de "pré-incendie".
Les directives qui suivent sont les limitations personnelles que j’applique en l’absence (ou en plus) de toute autre procédure / règle clairement définie - elles m’ont bien servi et peuvent vous aider, mais elles pourraient tout aussi bien me faire tuer ou congédié demain, appliquez-les donc à vos risques et périls.
Si vous voyez de la fumée ou du feu, laissez tomber la pièce.
Cela devrait aller de soi, mais disons-le quand même: s'il y a un feu actif (ou de la fumée qui indique qu'il y en aura bientôt), vous évacuez la pièce, coupez le courant et allumez le feu système de suppression.
Des exceptions peuvent exister (faites preuve de bon sens), mais c'est presque toujours l'action correcte.
Si vous procédez au dépannage, faites toujours appel à au moins une autre personne
pour deux raisons. Tout d'abord, vous ne voulez pas vous promener dans un centre de données et, tout d'un coup, vous devez faire monter un rack dans la rangée où vous vous dirigez et personne ne sait que vous y êtes. Deuxièmement, l’autre personne vérifie votre état physique en matière de dépannage plutôt que de quitter la salle. Si vous appelez pour appuyer sur le Big Red Switch, vous avez l’avantage d’avoir une seconde personne qui souscrit à la décision (aide à éviter les aspects limitant la carrière d’une telle décision si quelqu'un la questionne plus tard).
Prenez des mesures de sécurité prudentes lors du dépannage Assurez-vous de toujours disposer d'un chemin d'évacuation (une extrémité de ligne ouverte et un chemin dégagé menant à une sortie).
Gardez une personne en poste à la sortie de feu EPO / anti-incendie.
Emportez avec vous un extincteur (halon ou autre agent propre, s'il vous plaît).
Rappelez-vous la règle n ° 1 ci-dessus.
En cas de doute, quittez la pièce . Faites attention à votre respiration: utilisez un respirateur ou un masque à oxygène. Cela pourrait sauver votre santé en cas d'incendie chimique.
Fixez une limite et respectez-la
plus précisément, définissez deux limites:
- Condition ("Combien de temps vais-je laisser cela aller?"), Et
- Temps ("Combien de temps vais-je continuer à essayer de trouver le problème avant qu'il ne soit trop risqué?").
Les limites que vous avez définies peuvent également être utilisés pour permettre à votre équipe de commencer un arrêt ordonné de la zone touchée, donc quand vous DO tirer le pouvoir que vous n'êtes pas écraser un tas de machines actives, et votre temps de récupération sera beaucoup plus courte, mais rappelez - vous que Si l'arrêt méthodique prend trop de temps, vous devrez peut-être laisser quelques systèmes tomber en panne au nom de la sécurité.
Faites confiance à votre instinct
Si la sécurité vous préoccupe à tout moment, appelez le service de dépannage et quittez la pièce.
Vous pouvez ou non laisser tomber la pièce en fonction de vos instincts, mais il est prudent de vous regrouper à l'extérieur de la pièce en toute sécurité (relative).
S'il n'y a pas de danger imminent, vous pouvez choisir de faire appel au service d'incendie local avant de prendre des mesures radicales, telles que la libération d'EPO ou la libération d'un agent propre. (Ils vous diront peut-être de le faire quand même: leur mandat est de protéger les personnes, puis les biens, mais ce sont évidemment des experts en matière de lutte contre les incendies, vous devriez donc faire ce qu'ils disent!)
Nous avons abordé cette question dans les commentaires, mais vous pouvez également résumer votre question dans une réponse: @DeerHunter, @Chris, @Sirex et bien d'autres ont contribué à la discussion.