Supposons que j'exécute un calcul de superordinateur sur 100 000 cœurs pendant 4 heures sur http://www.nersc.gov/users/computational-systems/edison/configuration , échangeant environ 4 PB de données sur le réseau et effectuant environ 4 To d'I / O. Le calcul est entièrement entier, les résultats sont donc corrects ou incorrects (pas d'erreurs numériques intermédiaires).
En supposant que le code est correct, je voudrais estimer la probabilité que le calcul soit incorrect en raison d'une défaillance matérielle. Quelle est la bonne façon de procéder? Existe-t-il de bonnes sources pour les chiffres requis pour faire une telle estimation?