Quels articles sur la gestion des erreurs dans les systèmes distribués recommandez-vous?
Quels articles sur la gestion des erreurs dans les systèmes distribués recommandez-vous?
Réponses:
Vous voudrez peut-être jeter un œil aux œuvres qui ont remporté Tushar D. Chandra, Vassos Hadzilacos et Sam Toueg le prix Edsger W. Dijkstra en 2010 :
Ces articles introduisent la notion de détecteurs de défaillance dans un système distribué dans un cadre général et précis. Intuitivement, ils ont essayé d'étudier la quantité minimale d'informations sur les défaillances nécessaires pour résoudre le consensus. Il s'avère que vous n'avez pas besoin d'un détecteur de panne parfait pour résoudre un consensus. Même des détecteurs de défaillance non fiables satisfaisant à certaines conditions minimales suffiront pour la tâche. Ces articles ont été très influents sur la façon de gérer les défaillances des systèmes distribués.
Quel type de défauts dans le système? Vous cherchez des solutions pour gérer les défauts byzantins ou simplement le modèle classique de fail-stop? Les solutions en présence de nœuds byzantins dans un système distribué sont le problème le plus intrigant. Le problème a été officialisé par Leslie Lamport (le problème des généraux byzantins »et le document de 1999 de Barbara Liskov et Miguel Castro présente la solution pratique de travail la plus proche« Tolérance aux pannes byzantine pratique ». Les modèles formels originaux pour gérer la tolérance aux pannes incluent l'état approche machine de Fred Schneider et réplication horodatée Je suis d'accord que la question est très générale, le champ est immense et la théorie constitue la base de la plupart des systèmes fonctionnant aujourd'hui en ligne. Peut-être qu'un modèle de défaut plus spécifique et le domaine du problème aideraient à obtenir meilleures réponses
Voici une collection de modèles pour traiter les erreurs de gestion dans les systèmes distribués:
Alternativement, pour des travaux plus génériques, il y a le livre Introduction to Reliable Distributed Programming de Rachid Guerraoui et Luis Rodrigues, qui possède une vaste gamme d'algorithmes pratiques, y compris de nombreuses variantes de récupération après défaillance. Le texte plus classique Algorithmes distribués de Nancy Lynch couvre un terrain similaire d'un point de vue plus théorique.