Bien que ce ne soit pas exactement une tâche qui m'a été confiée, j'ai dû me remettre d'un temps d'arrêt forcé.
Auparavant, j'étais SA pour un site financier assez important. Nous connaissions nos systèmes à l'intérieur comme à l'extérieur, avions une journalisation centralisée et d'excellents outils pour les passer au crible.
Tout d'un coup (naturellement très proche d'un délai), tous les téléphones portables deviennent fous avec des messages d'alerte. Vérifiez que le site est en panne et que tout le personnel de SA abandonne ce qu'il fait et commence à enquêter.
Les journaux Apache étaient corrects, la base de données ne lançait aucune erreur et les caches tournaient très bien. Beaucoup de ressources disponibles, le réseau fonctionnait bien et aucun déploiement récent.
10 minutes plus tard, je découvre que l'un des développeurs avait accédé au site et ajouté un dé (); dans un module obscur lié à la génération de pages.
En d'autres termes, le logiciel a fait ce qu'on lui avait dit de faire, et il n'y avait aucune information de journal qui aurait aidé.
Le directeur général de la société qui gérait le site a eu un énorme sourire et a dit qu'il voulait nous chronométrer. Je lui ai dit de ne pas toucher à mes serveurs de production, que nous avions de bons plans de reprise après sinistre, mais l'incompétence de son développeur a fait en sorte qu'aucun de ces plans ne se concrétise.
S'il voulait vérifier notre temps de réponse, il aurait à tout le moins dû en discuter avec l'OTC et lui demander s'il pouvait le faire «un certain temps aujourd'hui» ou «cette semaine». De cette façon, personne n'aurait été énervé et nous n'aurions pas perdu de temps à en discuter.
L'événement a été l'un des plus peu professionnels que j'ai rencontrés jusqu'à présent.