Le temps nécessaire pour copier 1,5 To de données dépend beaucoup du type de données. Si vous avez quelques 1 500 fichiers de 1 Go, cela ne prendra probablement que quelques heures, mais si vous avez un milliard et demi de fichiers de 1 Ko, cela prendra probablement des jours.
Cela est dû à deux spécifications conflictuelles sur les disques: le débit et le temps d'accès moyen. Un disque traditionnel avec un débit de 100 Mo / s et un temps d'accès de 10 ms est assez courant. Si vous pouvez diffuser des données séquentiellement, vous pouvez obtenir 100 Mo / s. Cependant, si vous devez sauter à un autre endroit, cela prend 10 ms. Si vous aviez diffusé en continu, vous auriez pu écrire 1 Mo de données dans le temps qu'il faut pour passer à un autre emplacement.
La création d'un fichier peut prendre plusieurs recherches, donc la création d'un fichier de 1 Ko peut "coûter" autant que la diffusion de plusieurs Mo de données.
Ainsi, dans certains cas, il est préférable de faire une copie de disque brute du périphérique de bloc que de copier sur le système de fichiers via quelque chose comme rsync. Si vous avez beaucoup de fichiers, dans un système de fichiers qui est, par exemple, plein à 50% ou plus, il est souvent préférable de simplement copier le périphérique de bloc complet via "dd", en ce qui concerne le temps qu'il faut. Bien sûr, vous ne pouvez pas faire cela pendant que le système de fichiers est monté, donc cela a aussi des inconvénients.
Les SSD peuvent aider à atténuer cela, car leurs temps d'accès sont environ 100 fois plus rapides, mais les disques SSD MLC ont des problèmes d'accès complexes en fonction de la disponibilité d'un pool de blocs pré-effacés. Les SSD SLC peuvent vous aider.
Les contrôleurs RAID avec cache intégré peuvent aider à la recherche, tout comme le module de noyau flashcache qui vous permet de mettre en cache un périphérique de bloc via un SSD.
Les systèmes RAID peuvent permettre plusieurs recherches parallèles, réduisant efficacement le temps d'accès moyen, ainsi que la parallélisation pour augmenter le débit. Mais vos performances globales dépendent souvent du nombre de fichiers impliqués.