J'ai des tests unitaires plus petits qui utilisent de petits extraits de jeux de données réels. Je voudrais également tester mon programme par rapport à des ensembles de données complets pour une multitude de raisons. Le seul problème est qu'un seul ensemble de données réel fait environ 5 Go. Je n'ai pas trouvé de chiffres précis pour ce que les référentiels Git peuvent stocker, mais cela semble trop.
La solution que mon équipe a adoptée est que le projet a un fichier qui contient un chemin vers un système de fichiers connecté au réseau qui contient nos données de test. Le fichier est ignoré par Git.
J'ai l'impression que c'est une solution imparfaite pour deux raisons. Lorsque le NAS ne fonctionne pas, est lent ou est en panne, nous ne pouvons pas exécuter un test complet. La deuxième raison est que lorsque quelqu'un clone un référentiel pour la première fois, les tests unitaires échouent et doivent donc trouver comment monter les choses avec un certain nom et la syntaxe utilisée pour créer le fichier de chemin de test.
Ma question est donc double. Combien de données sont trop de données à stocker dans le contrôle de révision?
Quelle est la meilleure façon de gérer de grandes quantités de données de test?