Je suis étudiant au doctorat en géophysique et travaille avec de grandes quantités de données d'images (des centaines de Go, des dizaines de milliers de fichiers). Je sais svn
et git
assez bien et viens valoriser un historique du projet, combinée à la possibilité de facilement travailler ensemble et une protection contre la corruption disque. Je trouve git
également extrêmement utile d’avoir des sauvegardes cohérentes, mais je sais que git ne peut pas gérer efficacement de grandes quantités de données binaires.
Dans mes études de master, j'ai travaillé sur des ensembles de données de taille similaire (également des images) et j'ai eu beaucoup de difficultés à garder trace de versions différentes sur différents serveurs / périphériques. Diffuser 100 Go sur le réseau n'est vraiment pas amusant et me coûte beaucoup de temps et d'efforts.
Je sais que d'autres scientifiques semblent avoir des problèmes similaires, mais je ne pouvais pas trouver de bonne solution.
Je veux utiliser les installations de stockage de mon institut, j'ai donc besoin de quelque chose qui puisse utiliser un serveur "idiot". Je souhaite également une sauvegarde supplémentaire sur un disque dur portable, car je souhaite éviter de transférer des centaines de Go sur le réseau dans la mesure du possible. Il me faut donc un outil capable de gérer plusieurs sites distants.
Enfin, j’ai vraiment besoin de quelque chose que d’autres chercheurs puissent utiliser, ce qui n’a pas besoin d’être très simple, mais qui devrait pouvoir être appris en quelques heures.
J'ai évalué beaucoup de solutions différentes, mais aucune ne semble correspondre à la facture:
- svn est quelque peu inefficace et a besoin d'un serveur intelligent
- hg bigfile / largefile ne peut utiliser qu'une seule télécommande
- git bigfile / media peut également utiliser une seule télécommande, mais n’est pas très efficace
- le grenier ne semble pas avoir un journal, ou diffing capacités
- bup a l' air vraiment bien, mais a besoin d'un serveur "intelligent" pour fonctionner
J'ai essayé git-annex
, ce qui fait tout ce dont j'ai besoin (et bien plus), mais il est très difficile à utiliser et pas bien documenté. Je l'utilise depuis plusieurs jours et je n'arrive pas à comprendre, alors je doute qu'un autre collègue soit intéressé.
Comment les chercheurs traitent-ils de grands ensembles de données et à quoi servent les autres groupes de recherche?
Pour être clair, je suis principalement intéressé par la façon dont d’autres chercheurs traitent cette situation, et pas seulement par cet ensemble de données. Il me semble que presque tout le monde devrait avoir ce problème, mais je ne connais personne qui l'ait résolu. Devrais-je conserver une copie de sauvegarde des données d'origine et oublier tout ce contrôle de version? Est-ce ce que tout le monde fait?