Contexte: En réponse à une question précédente sur la recherche reproductible, Jake a écrit
Un problème que nous avons découvert lors de la création de notre archive JASA était que les versions et les valeurs par défaut des packages CRAN avaient changé. Donc, dans cette archive, nous incluons également les versions des packages que nous avons utilisés. Le système basé sur la vignette se cassera probablement à mesure que les gens changeront leurs packages (vous ne savez pas comment inclure des packages supplémentaires dans le package qui est le Compendium).
Enfin, je me demande ce qu'il faut faire lorsque R lui-même change. Existe-t-il des moyens de produire, disons, une machine virtuelle qui reproduit tout l'environnement de calcul utilisé pour un papier de telle sorte que la machine virtuelle ne soit pas énorme?
Question:
- Quelles sont les bonnes stratégies pour garantir que l'analyse des données reproductibles est reproductible à l'avenir (disons, cinq, dix ou vingt ans après la publication)?
- Plus précisément, quelles sont les bonnes stratégies pour maximiser la reproductibilité continue lors de l'utilisation de Sweave et R?
Cela semble être lié à la question de garantir qu'un projet d'analyse de données reproductible s'exécutera sur la machine de quelqu'un d'autre avec des valeurs par défaut, des packages, etc. légèrement différents.