Les utilisateurs ne peuvent pas accéder à leur courrier électronique, le PDG ne peut pas accéder à la page d'accueil de la société et votre téléavertisseur s'est tout simplement déclenché avec un code "911". Que faites-vous quand tout explose?
Les utilisateurs ne peuvent pas accéder à leur courrier électronique, le PDG ne peut pas accéder à la page d'accueil de la société et votre téléavertisseur s'est tout simplement déclenché avec un code "911". Que faites-vous quand tout explose?
Réponses:
La première réponse est de rester calme! J'ai appris que la panique qui fait souvent paniquer ne fait qu'empirer les choses. Une fois que cela est réalisé, la prochaine étape consiste à déterminer le problème. Les plaintes des utilisateurs et des gestionnaires vont venir à vous sous tous les angles, vous indiquant ce qu’elles ne peuvent pas faire, mais pas quel est le problème.
Une fois que vous connaissez le problème, vous pouvez commencer à planifier et à donner une échelle de temps à vos utilisateurs en colère!
Reste calme
Ne panique pas. Respirer! (Du diaphragme, ça aide.) Si vous avez étudié la méditation, cela peut aussi vous aider.
Face à un stress extrême, votre corps passe en mode fuite ou combat, car il pense être dans une situation de vie ou de mort. À ce stade, votre corps pompe en réalité moins de sang vers certaines parties de votre cerveau, ce qui diminue les fonctions telles que le raisonnement. Cela réduit efficacement votre QI puisque l'instinct, au lieu de la rationalité, commence à dominer vos fonctions cérébrales. Si vous avez déjà assisté à une discussion animée ou si vous en avez déjà été témoin, vous pourrez peut-être reconnaître ces symptômes, car les émotions de chacun se manifestent et la rationalité prend des vacances. Plus tard, quand les gens auront une chance de se calmer, ils seront plus enclins à accepter d'avoir commis une erreur ou à se tromper, et seront plus capables de voir l'autre côté, mais dans le feu de l'action moins.
Maintenir votre sang-froid et garder votre intelligence à votre sujet assurera le fonctionnement optimal de votre cerveau et vous permettra de prendre des décisions rationnelles fondées sur des preuves et la raison plutôt que sur l'émotion et la peur.
Triage
Une utilisation efficace de ressources limitées pour obtenir le plus grand bénéfice au moindre coût est ici primordiale. Décidez dès que possible des problèmes à résoudre immédiatement, qui peuvent attendre un peu (heures, jours) et qui peuvent attendre indéfiniment. Apprenez également à comprendre quand quelque chose est invivable et ne vaut pas la peine d'être sauvé (par exemple, la moitié du routeur est fondu, même si c'est votre seul routeur, vous ne pouvez pas l'enregistrer, en acheter un nouveau et le récupérer sur le site à la hâte ou trouver quelque chose qui peut combler le vide temporairement).
Conserver la conscience de la situation
Ne laissez pas votre attention être piégée par un problème intéressant ou par quelque chose que vous ne comprenez pas encore très bien. Restez concentré sur la vue d'ensemble et sur le bon fonctionnement des choses les plus importantes.
Utiliser la méthode scientifique
Formuler une hypothèse. Déterminez comment vous testeriez cette hypothèse. Recueillir des données pour tester l'hypothèse. Recherchez également les données non confirmantes. Affinez votre hypothèse et répétez le cycle autant de fois que nécessaire jusqu'à ce que vous ayez suffisamment confiance en votre hypothèse pour agir.
Être pragmatique
Ce n'est pas le moment pour le dogme. Vous pouvez prendre quelques raccourcis ici et là lorsque vous vous remettez d'une catastrophe. Il s’agit essentiellement d’une dette technique à recouvrer. Dans de nombreuses entreprises, une défaillance catastrophique entraîne une perte de revenus catastrophique. Il est préférable de mettre les choses en marche, même sur des bases instables, que de risquer la vie de votre entreprise. Comme toujours, le jugement est extrêmement important ici. Parfois, il est logique de soutenir un ventilateur de boîte pointé sur un rack de serveur, parfois non.
Prends soin de toi
Depuis combien de temps travaillez-vous sur cette urgence? À quand remonte la dernière fois que tu as bu de l'eau? Quand as-tu mangé pour la dernière fois? Depuis combien de temps êtes-vous réveillé? Ne vous épuisez pas simplement en cas d'urgence, prenez le temps de rester hydraté, nourri et reposé (au cas où il s'agirait d'un long travail de plusieurs jours).
Recruter de l'aide
Il y a presque certainement dans votre entreprise de nombreux talents qui sont à la fois motivés et capables de vous aider. Méfiez-vous cependant de faire courir trop de monde et de vous causer des problèmes. Méfiez-vous également des gens ennuyeux en les soumettant à un «coup de feu». Trouvez des personnes qui veulent déjà aider, faites-les travailler sur des tâches ciblées et assurez-vous que les personnes communiquent entre elles.
Communiquer
La communication est critique. Rien n'est aussi effrayant que l'inconnu. Lorsque les gens ne savent rien d'autre que quelque chose est brisé, une déclaration vide qu'il sera remis dans X heures n'est que légèrement rassurante (encore moins rassurante après X heures et que les choses soient encore brisées). Les pressions en jeu peuvent vous amener à donner des estimations de temps trop optimistes pour le GAF, mais c’est une mauvaise solution. Ne dites pas simplement que vous travaillez dessus, ne dites pas simplement que les choses seront réparées dans un délai X. Soyez ouvert, montrez votre processus, détaillez vos progrès et vos échecs. Donnez un aperçu du problème, de votre processus de recherche de celui-ci et de votre plan de résolution des problèmes (même si vous ne noyez pas les gens de manière minutieuse). Montrez que le problème n’est pas insoluble, montrez que les choses seront finalement réglées correctement, montrez qu’il existe des personnes compétentes sur le problème,
Ne paniquez pas.
Étape 0. Vérifiez que ce n'est pas votre système de surveillance qui est en panne
Réserver immédiatement un vol vers un pays non extraditionnel
Commencez par vérifier les bases, cela semble idiot, mais des choses comme
Je sais que beaucoup de temps peut être perdu à chercher une solution lorsque le problème est en amont
Je cingle des trucs. Qu'est-ce qui se passe après cela varie considérablement en fonction des résultats du ping.
Désolé, cette question trouve déjà une réponse parfaite dans le dessin animé sysadmin préféré :
RTFLF - Lire le fichier journal Frakkin '
(Je ne peux pas en accepter le mérite, tout va à Scott Hanselman )
N'essayez pas de réparer quoi que ce soit pour l'instant.
Assurez-vous de connaître exactement le problème réel et sous-jacent. Maintenant, commence à réparer les choses. S'il y a plusieurs choses à réparer, réfléchissez bien aux choses qui peuvent être retardées (du moins jusqu'au prochain jour ouvrable!) Et qui doivent absolument être corrigées maintenant.
Mais le plus important: une fois que tout fonctionne, demandez pourquoi "tout a explosé"? Qu'allez-vous faire pour que cela ne se reproduise plus? Y a-t- il des mesures qui rendraient plus facile la solution si elle ne se reproduise plus?
Faites savoir aux gens que vous en êtes et, si possible, donnez-leur une estimation du moment où les choses redeviendront normales.
En ce qui concerne le dépannage, cela dépend évidemment de ce qui ne va pas. Je conserve généralement une collection de scripts de "vérification de l'état" pour différents services.
Vérifiez le câblage! J'ai perdu des heures à vérifier d'autres choses quand un simple échange de câble Eth0 aurait résolu le problème ...
Vous devriez avoir des plans d'urgence.
Les systèmes essentiels doivent être conçus avec un basculement automatique ou un plan de récupération documenté et testé.
Plus le système est important, plus vous avez besoin de résilience et plus il devrait être automatique.
Si vous n'en avez pas, alors ce n'était pas important, n'est-ce pas!
Assurez-vous que la sauvegarde de votre CV est en sécurité :) Ensuite,
Trouvez les points communs. Ce qui est commun à tous les systèmes affectés.
Trouvez ce qui a changé. Vous devriez avoir une gestion formelle du changement dans votre organisation.
Où est le nouveau gars ... où est le patron ...? Est-ce que l'un d'entre eux a pris un raccourci? (c'est juste un redémarrage rapide du serveur, qu'est-ce que ça pourrait faire mal)
J'aime cette liste de résolution de problèmes L'application de dépannage simple résout maintenant tout =)
Il est difficile d'après l'énoncé de fournir un ensemble d'actions spécifiques. Votre premier déménagement sera basé sur:
De toute évidence, vous devez rester calme et alerte sur la question à traiter. Votre expérience en matière de dépannage réseau vous aura appris qu’il pourrait très bien s'agir de quelque chose de trivial, tel que:
Cela dit, cela pourrait aussi être grave dans les catégories suivantes:
L'élément clé est ce que vous SAVEZ sur le problème. Quel est ton point de référence? (de quel point de vue le système est-il en panne?).