Nous avons eu une panne assez grave la semaine dernière affectant plusieurs services qui nous ont mis hors de notre SLA avec les clients. Maintenant que tout a été résolu, je procède à un examen post mortem.
À partir de cette revue, je voudrais proposer un document interne qui décrit la panne, ses effets, notre réponse et la résolution. Je veux proposer un formulaire assez standard pour une réutilisation future. J'ai inclus mes réflexions ci-dessous, mais quels autres éléments devraient être inclus? S'il s'agissait d'un incident lié à la sécurité, qu'apporteriez-vous?
- Résumé Résumé de l'événement au niveau exécutif.
- Services concernés
- Impact Quel a été l'impact sur nos utilisateurs et SLA? Y avait-il un coût en dollars, des transactions manquées, des clients perdus, etc.?
- Durée de l'interruption pour chaque service affecté en cas d'écarts
- Cause Y compris les causes primaires et secondaires
- Résolution
- Chronologie des événements Notifications, contact avec des fournisseurs externes, notifications clients, réponses, etc.
- Problèmes avec notre réponse Les choses ne se sont-elles pas déroulées comme prévu avec notre réponse à la panne? Les bonnes personnes ont-elles été informées? Les fournisseurs ont-ils respecté leurs obligations contractuelles?
- Mesures préventives à prendre Comment éviter que cette panne ne se reproduise ou réduire son impact?
- Méthode de détection Dans quelle mesure avons-nous détecté cette panne et comment pouvons-nous améliorer la détection à l'avenir?
- Modifications à apporter dans les futures réponses aux pannes
Essayez de limiter les messages à un élément et à une explication, et ce message peut être mis à jour avec les meilleures réponses votées.