Nous avons une structure de dossiers sur notre intranet qui contient environ 800 000 fichiers divisés en environ 4 000 dossiers. Nous devons synchroniser cela avec un petit cluster de machines dans nos DMZ. La profondeur de la structure est très peu profonde (elle ne dépasse jamais deux niveaux de profondeur).
La plupart des fichiers ne changent jamais, il y a chaque jour quelques milliers de fichiers mis à jour et 1 à 2 000 nouveaux fichiers. Les données sont des données de rapport historiques conservées là où les données source ont été purgées (c'est-à-dire qu'il s'agit de rapports finalisés pour lesquels les données source sont suffisamment anciennes pour être archivées et supprimées). La synchronisation une fois par jour est suffisante étant donné qu'elle peut se produire dans un délai raisonnable. Les rapports sont générés du jour au lendemain et nous synchronisons dès le matin en tant que tâche planifiée.
De toute évidence, si peu de fichiers changent régulièrement, nous pouvons grandement bénéficier de la copie incrémentielle. Nous avons essayé Rsync, mais cela peut prendre jusqu'à huit à douze heures juste pour terminer l'opération de "création de la liste des fichiers". Il est clair que nous dépassons rapidement les capacités de rsync (le délai de 12 heures est beaucoup trop long).
Nous utilisions un autre outil appelé RepliWeb pour synchroniser les structures, et il peut effectuer un transfert incrémentiel en 45 minutes environ. Cependant, il semble que nous ayons dépassé sa limite, il a commencé à voir des fichiers apparaître comme des suppressions quand ils ne le sont pas (peut-être qu'une structure de mémoire interne a été épuisée, nous ne sommes pas sûrs).
Quelqu'un d'autre a-t-il rencontré un projet de synchronisation à grande échelle de ce type? Existe-t-il quelque chose conçu pour gérer des structures de fichiers massives comme celle-ci pour la synchronisation?