J'essaie de comprendre la meilleure façon de capturer des données pour commencer à mesurer les métriques du temps moyen de réparation (MTTR), et je dois comprendre comment l'impact du «rollback» sur le MTTR est positif ou négatif.
Scénario 1
En supposant qu'une surveillance solide est en place, un code est déployé qui provoque un incident qui est détecté assez rapidement (faible MTTI). Au point d'identification, il existe deux voies principales possibles (oui, je simplifie à l'excès à des fins de discussion):
Annulez le déploiement, en retournant rapidement la stabilité, mais sans les fonctionnalités prévues en production.
Roll-forward avec des modifications supplémentaires qui résolvent l'incident et maintiennent les fonctionnalités prévues en direct.
Dans ce scénario, le MTTR est sacrément bas, étant donné que la stabilité du site peut revenir assez rapidement. Cela dit, le résultat attendu de la modification n'est pas en direct, et donc le code / fonctionnalité / modification est toujours bloqué en cours. Si un objectif est un MTTR faible, il semble inciter au retour en arrière comme mécanisme de récupération.
Scénario 2
Dans ce scénario, MTTR est strictement mesuré par le temps qu'il faut au code / fonctionnalité / changement attendu pour fonctionner correctement en production. Même si je rétrograde, jusqu'à ce que mon changement de code "fixe" entre en prod, le minuteur MTTR fonctionne toujours. Dans ce cas, MTTR semble lié à la stabilité des résultats commerciaux au lieu de simplement "hé, les choses sont stables".
Maintenant, la réponse peut être aussi simple que le MTTR n'est pas utilisé comme une mesure dans le vide, mais plutôt en conjonction avec le taux d'échec de changement - un MTTR très bas provoqué par des retours en arrière fréquents pourrait indiquer un taux d'échec de changement extrêmement élevé. Cela dit, il y a quelque chose qui ne me semble pas juste dans l'idée de séparer la mesure MTTR des résultats commerciaux.
Je réfléchis peut-être beaucoup à cela, mais je suis curieux de savoir comment d'autres mesurent le MTTR et quel est le point final dans le temps pour la «récupération». L'utilisez-vous simplement comme stabilité, ou d'autres facteurs entrent-ils en jeu pour déterminer ce que signifie "récupéré"?