Services Cloud hébergés par Amazon Web Services , Azure , Google et la plupart des autres publient le S ervice L Evel A ccord , ou SLA, pour les services individuels qu'ils fournissent. Les architectes, les ingénieurs de plate-forme et les développeurs sont ensuite chargés de les assembler pour créer une architecture qui héberge une application.
Pris isolément, ces services fournissent généralement quelque chose dans la plage de trois à quatre neuf de disponibilité:
- Azure Traffic Manager: 99,99% ou «quatre neuf».
- SQL Azure: 99,99% ou «quatre neuf».
- Azure App Service: 99,95% ou «trois neuf cinq».
Cependant, lorsqu'ils sont combinés ensemble dans des architectures, il est possible qu'un composant quelconque subisse une panne entraînant une disponibilité globale qui n'est pas égale aux services des composants.
Disponibilité du composé série
Dans cet exemple, il existe trois modes de défaillance possibles:
- SQL Azure est en panne
- App Service est en panne
- Les deux sont en panne
La disponibilité globale de ce "système" doit donc être inférieure à 99,95%. Ma justification pour penser que c'est si le SLA pour les deux services était:
Le service sera disponible 23 heures sur 24
Ensuite:
- L'App Service pourrait être hors service entre 0100 et 0200
- La base de données entre 0500 et 0600
Les deux composants sont dans leur SLA mais le système total était indisponible pendant 2 heures sur 24.
Disponibilité en série et parallèle
Dans cette architecture, il existe cependant un grand nombre de modes de défaillance principalement:
- SQL Server dans RegionA est en panne
- SQL Server dans RegionB est en panne
- Le service d'application dans la région A est en panne
- Le service d'application dans la région B est en panne
- Traffic Manager est en panne
- Combinaisons de ci-dessus
Étant donné que Traffic Manager est un disjoncteur, il est capable de détecter une panne dans l'une ou l'autre région et d'acheminer le trafic vers la région de travail, mais il existe toujours un point de défaillance unique sous la forme de Traffic Manager, de sorte que la disponibilité totale du «système» ne peut pas être supérieur à 99,99%.
Comment la disponibilité composée des deux systèmes ci-dessus peut-elle être calculée et documentée pour l'entreprise, nécessitant potentiellement une réarchitecture si l'entreprise souhaite un niveau de service supérieur à celui que l'architecture est capable de fournir?
Si vous souhaitez annoter les diagrammes, je les ai intégrés dans Lucid Chart et créé un lien multi-usage, gardez à l'esprit que tout le monde peut le modifier afin que vous souhaitiez créer une copie des pages à annoter.