Comment gardez-vous au frais lorsque le système de production tombe en panne? [fermé]


26

Cela est arrivé à la plupart d'entre nous ...

Vous venez travailler un jour. Tout semble normal - le soleil brille, les oiseaux gazouillent, mais vous remarquez quelques choses étranges sur votre chemin au travail qui vous rappellent le chat déjà vu dans Matrix.

Vous entrez dans le bureau et il y a beaucoup de téléphones qui sonnent - mais il se pourrait simplement qu'ils fassent une nouvelle promotion des ventes. Vous vous installez, lorsque vous remarquez un nuage sombre planant au-dessus de vous.

Cela vous prend quelques instants, mais vous reconnaissez que le cloud est votre patron. Habituellement, il vous vérifie chaque matin avec son "Soooo Peeeeter, que diriez-vous de ces rapports TCP / IP?" routine, mais aujourd'hui, il a tout oublié des mœurs et a grossièrement envahi votre espace personnel. Pas de "bonjour", juste quelques bave, grognements et jurons. Il vous rappelle un peu un néandertalien qui essaie de s'éloigner d'un tigre aux dents cyber, la peur et la panique compressées dans une balle serrée. Vous essayez de déchiffrer le nouveau langage qu'il a créé depuis hier et vous commencez à comprendre que quelque chose de mal s'est passé du jour au lendemain - le système de production est tombé en panne.

Maintenant, votre système est généralement utilisé par les clients pendant les heures normales de travail de 9 à 5, mais pour une raison quelconque, vous n'avez reçu aucune alerte sur votre bip (pour les personnes de moins de 30 ans - un bip était comme un téléphone portable qui ne pouvait que sonner et vous dire qui vous a bipé). Vous devez vous rappeler de le recharger la prochaine fois.

Il est donc 8 h 45 et le système DOIT être opérationnel à 9 h. Toutes les 10 secondes, votre patron laisse échapper une nouvelle malédiction qui vous indique qu'un autre client a des problèmes pour entrer dans le système. De plus, plusieurs gestionnaires de comptes survolent maintenant votre patron pour lui faire comprendre comment les clients souffrent VRAIMENT VRAIMENT.

Tout le monde dépend de vous pour mettre le système en place le plus tôt possible et en même temps entrave votre progression en vous distrayant constamment.

Comment gardez-vous au frais dans une situation comme celle-ci?


34
Première étape: Composez un message de 300 mots sur programmers.stackexchange.
kubi

8
Je ne dis pas que cela se produit en ce moment. Attendez, laissez-moi vérifier ...
Mag20

1
Est-ce un problème unique aux développeurs? Si quelque chose dont vous êtes responsable ne fonctionne pas, vous devez être en mesure de faire face à la pression, quelle que soit cette «chose».
ChrisF

1
J'ai constaté que d'après ma propre expérience, très peu de sociétés de logiciels, grandes et petites, effectuent des exercices de récupération après sinistre. Je mettrais ceci à votre patron. Si vous effectuez un exercice, vous savez à quoi vous attendre et vous pouvez avoir une idée des temps de réponse. Vous pouvez également évaluer si l'un des processus peut être automatisé. Que se passe-t-il si vous perdez du pouvoir? Que se passe-t-il si un incendie se déclare au bureau, avez-vous un emplacement hors site? Vos serveurs sont-ils hébergés en interne ou en externe, etc. Vraiment, vous avez besoin de stress pour qu'un plan d'urgence soit mis en place.
Desolate Planet

3
Cela ressemble au début d'une entrée sur TheDailyWTF!
Grant Palin

Réponses:


43

Dans la situation, demandez à votre patron de vous aider en gardant tous les autres gens loin de vous (ce qui lui donne quelque chose à faire ailleurs).

Lorsque vous le remettrez en service, demandez à votre patron une réunion pour évaluer et établir des procédures pour éviter que cela ne se reproduise.


1
+1. Les exercices de récupération après sinistre sont de bons moyens d'évaluer les réactions et les temps de réponse. Dommage que je n'en vois pas assez.
Desolate Planet

@DP yah, mais nous ne pouvons pas le faire car cela signifierait que les personnes et l'équipement ne sont pas disponibles pour les urgences réelles pendant le déroulement de l'exercice (oui, j'ai entendu cet argument plus d'une fois). Bien sûr, s'il y avait suffisamment de personnes et d'équipement, vous pourriez former une équipe sur un set pendant que l'autre est en service ...
jwenting

@jwenting sonne comme économiser sur l'alarme incendie.

9

La première chose à faire est d'éliminer les distractions aussi poliment que possible. Personne ne peut travailler avec quelqu'un qui vous dit à quel point c'est mauvais pour vos clients. C'est bien sûr plus facile à dire qu'à faire si votre patron est un maniaque, mais si c'est le cas, vous voudrez peut-être envisager de trouver un autre emploi de toute façon.

Ensuite, évaluez rapidement la perte réelle causée par l'erreur et comment (le cas échéant) elle peut être atténuée rapidement. Avec un peu de pratique, vous pouvez également effectuer une vérification rapide des fichiers journaux, dont vous aurez besoin pour former un plan d'action.

Si le problème est complexe, concentrez-vous sur la partie la plus grave de celui-ci. Réfléchissez à deux ou trois étapes avant de passer à l'action. Assurez-vous également de savoir comment vous retirer de tout plan avant d'agir.

Et le plus important: ne paniquez pas!


7

De telles situations sont courantes dans les systèmes de contrôle industriels. La chaîne de production tombe en panne au milieu de la nuit, l'entreprise perd généralement des centaines, voire des milliers de dollars par minute , et elle vous regarde pour résoudre le problème. Vous le gérez ainsi:

  1. Expliquez-leur ce que vous savez
  2. Expliquez ce que vous ne savez pas (mais devez savoir pour résoudre le problème)
  3. Expliquez comment vous allez découvrir ce que vous ne savez pas
  4. Donnez-leur une estimation du temps que cela va prendre (utilisez une plage)
  5. Ignorez tout ce qui vous entoure pendant que vous vous concentrez sur le suivi de votre plan

6

La première chose est d'avoir pratiqué à plusieurs reprises la reprise après sinistre (sans que des personnes se tiennent au-dessus de votre épaule) afin que vous sachiez exactement quelles mesures vous devez prendre pour diagnostiquer et résoudre le problème sans avoir à recourir à des questions sur SO pour savoir quoi faire. Une fois que vous avez confiance en vos capacités de récupération, la pression et le stress sont beaucoup plus faibles.

Ensuite, il faut retirer les gens de vos cheveux pendant que vous travaillez. Votre patron veut quelque chose avec lequel il peut aller voir son patron. Donnez-leur des informations sur ce que vous avez l'intention de faire et combien de temps cela peut prendre, puis des rapports d'étape réguliers, surtout si vous trouvez quelque chose qui signifie que cela prendra beaucoup plus de temps que vous ne le leur avez dit. Oui, les rapports d'avancement prennent du temps à le réparer, mais les patrons en vol stationnaire et les utilisateurs prennent encore plus de temps. Moi, je vais à chaque fois pour les rapports d'avancement. Une fois qu'ils sont convaincus que vous les tiendrez à jour, ils vous feront confiance pour faire plus votre travail et vous laisser plus tranquille.

Si les utilisateurs vont être bloqués pendant un certain temps, envoyez-leur un e-mail si c'est une option ou affichez un avis sur le site Web, disant que le site est en panne pour maintenance et quand ils devraient pouvoir réessayer. (C'est peut-être une tâche que vous pouvez confier à votre patron pour trouver quelqu'un à faire pour le garder hors de vos cheveux.) Les gens sont moins grincheux à l'idée de ne pas pouvoir se connecter lorsqu'ils savent que quelqu'un travaille sur le problème. Lorsque les choses sont corrigées, si vous avez envoyé un e-mail, envoyez un e-mail au même groupe pour leur dire que c'est résolu. Je ne peux pas vous dire combien de fois j'ai vu des gens oublier cela et les utilisateurs pensent toujours qu'ils ne peuvent pas se connecter quand ils le peuvent. L'objectif n'est pas seulement de faire avancer les choses, mais de faire en sorte que les gens travaillent à nouveau avec le système.

Respirez profondément (les respirations profondes apaisent) et plongez dans le problème. Il est bon que les choses que vous devez faire soient écrites quelque part, car en cas d'urgence, parfois, vos synaspes cérébraux ne récupèrent pas les informations aussi rapidement que d'habitude. Vous ne voulez pas ressembler à un idiot marmonnant: "Je sais que nous avons un journal, où diable est-il?"

Si vous êtes dans un travail où vous soutenez des systèmes de production, il est préférable d'être le genre de personne qui réagit bien en cas d'urgence en général. Je ne suis pas sûr que vous puissiez vraiment l'apprendre. Si quelqu'un monté sur un cheval devant vous est tombé (un exemple pas si aléatoire tiré de ma vie) et gisait couché sur le sol, êtes-vous le genre de personne qui se tient là avec la bouche ouverte ou est-ce celle qui appelle l'ambulance, met le bandage de pression sur le saignement et ordonne à quelqu'un d'attraper le cheval? Si vous êtes le premier type de personne, ce n'est peut-être pas la bonne ligne de travail pour vous.


2

Dites-leur que c'est une bonne raison pour laquelle vous avez besoin d'un serveur de sauvegarde, et j'entends par là un deuxième serveur qui fonctionne de la même manière que le serveur principal qui peut être commuté immédiatement si le premier tombe en panne.


J'ai vu un serveur de sauvegarde allumé, et il avait le même problème que le serveur principal. Il a doublé le coût du matériel, ajouté au coût de configuration, et a été un gaspillage total de dépenses. Si vous effectuez un travail à haute disponibilité, alors bien sûr, mais vous devez dimensionner correctement votre matériel en fonction du problème.
Scott Whitlock

un exemple (extrême) du système de sauvegarde affecté par le même bogue que le système principal est Ariane 5 Flight 501
Andre Holzner

2

C'est déjà assez grave quand vous êtes entouré de tous côtés par des gens qui sont en colère contre vous pour un problème que vous avez créé, bien que ce soit deux fois plus mauvais quand c'est un problème que vous n'avez pas créé. Il m'est arrivé plus d'une fois que le client vient de mal le configurer, ce qui signifie que la faute est dans la communication avec le client (que ce soit le client pour ne pas avoir écouté ou le marketeur pour ne pas bien expliquer, vous ne saurez jamais).

Comment expliquez-vous qu'ils ont foiré? Ce n'est jamais une tâche facile, surtout lorsque votre patron respire dans votre cou parce qu'il ne sait pas mieux que de supposer que le client a toujours raison.

Alors, comment gardez-vous au frais dans une situation comme celle-ci? Rappelez poliment à votre patron que plus tôt vous vous mettrez au travail, plus tôt ce problème sera résolu.


1

En voyant cet événement comme une opportunité de montrer à quel point je suis précieux (pour l'entreprise) en faisant redémarrer le système de production le plus rapidement possible (sinon avant 9h ;-)).

Évidemment, en espérant que je ne l'ai pas cassé en premier lieu ;-)


1
  • sh_t arrive
  • il doit y avoir une solution à un problème
  • si quelqu'un dans le monde connaît la solution, je peux être l'un d'eux
  • s'il n'y a pas de solution, la panique n'aide pas
  • encore une fois, sh_t arrive

0

Eh bien, demandez à votre patron que vous lui répondrez lorsque le problème sera résolu; bien que dans ce genre de situations, la direction implique généralement d'autres personnes pour résoudre le problème dès que possible et ensuite, avec la personne "concernée" plus tard ... C'est la norme pour toute entreprise, quelle que soit l'industrie; quant aux affaires le Client est généralement le Roi !!


0

De telles situations me motivent davantage à avoir une documentation complète de tout et un plan complet pour faire face à tout type de situation.

Même si nous ne pouvons pas prévoir tous les problèmes possibles, mais nous pouvons travailler notre derrière, en étant mieux préparés, organisés et documentés.


1
Je n'ai jamais résolu un problème de production (c'est-à-dire un arrêt du système) en utilisant la documentation.
Marcie

1
Non, mais si vous avez besoin de rechercher quelque chose, comme des spécifications, des définitions de table, des paramètres de serveur, cela vaut la peine de les documenter.
crosenblum

0

J'ai passé 8 ans à faire l'entretien des bombardiers B52G en alerte 5 minutes pour la Troisième Guerre mondiale. Cela met tout en perspective pour moi.

Un système de production en baisse est important, mais il ne tuera pas des millions ou des milliards de personnes.

Découvrez ce qui ne va pas, trouvez la cause, corrigez-le. Établissez des communications claires avec ceux qui comptent et tenez-les informés. Dites à votre patron ce que vous faites et quand vous pourrez le mettre à jour peut empêcher une vague continue de messages et de conversations «est-il encore résolu».

faire un post-mortem et découvrir comment prévenir et limiter les effets de tels incidents à l'avenir.

Si vous êtes sur appel, avoir une batterie morte sur un téléphone portable ou un bip est extrêmement peu professionnel. C'est un scénario général, mais si cela arrivait à une personne travaillant pour moi, il y aurait une discussion sérieuse et si elle se répétait, elle ne travaillerait plus pour moi. Oui, je suis un dur à cuire.

En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.