Comment la vitesse du disque est-elle mesurée et qu'est-ce qui est rapide? Combien de temps devrait prendre une copie de 1500 Go?


11

Comment la vitesse du disque est-elle mesurée? Est-ce Mbit ou Mbyte par seconde lu? Qu'est-ce qui est moyen aujourd'hui et qu'est-ce qui est rapide et qu'est-ce qui est très rapide dans l'industrie?

Disons que quelqu'un dit qu'il faut beaucoup de temps pour faire une copie d'un fichier de 1500 Go (disons un fichier de base de données), combien de temps cela prendrait-il sur un système professionnel et comment peut-on le calculer en tenant compte de la vitesse du disque dur ?

Réponses:


19

Les vitesses de disque sont généralement mesurées en;

  • Vitesse de rotation en tours par minute (la plus faible à 4200 tr / min, puis 5400, 7200, 10k et 15k - cela ne s'applique pas aux SSD ou à la mémoire flash).
  • La vitesse de l'interface est la plus rapide que l'électronique d'un disque puisse essayer d'envoyer les données au contrôleur de disque (celles-ci vont des 100 Mbps d'ATA aux 150/300/600 Mbps de SATA, 2/4/8/16 Gbps de Fibre Channel et même aux vitesses PCIe pour stockage flash tel que FusionIO).
  • Le temps de recherche est simplement le temps qu'il faut pour commencer à lire ou à écrire un secteur particulier du disque - ceux-ci peuvent aller de 3 à 15 ms pour les disques à une petite fraction de celle-ci pour les disques SSD / flash.
  • Ensuite, nous arrivons à la vitesse réelle à laquelle vous pouvez vous attendre, il y a quatre vitesses dont vous devriez vous soucier; lecture séquentielle (lecture d'un très grand bloc de données), écriture séquentielle (identique mais écriture), lecture aléatoire (obtention de données de partout sur le disque) et écriture aléatoire. Celles-ci varient énormément, mais pour les disques en rotation, vous pouvez vous attendre à quelque chose de 25 Mbps à 150 Mbps pour la lecture et l'écriture séquentielles et quoi que ce soit de 3 Mbps à 50 Mbps pour la lecture et l'écriture aléatoires. Les disques SSD sont généralement de l'ordre de 200 Mo / s pour les séquences et généralement un peu moins pour les opérations aléatoires. FusionIO peut facilement atteindre 1 Go / s pour tous, mais est généralement petit et coûteux.

Comme vous pouvez le voir, il n'y a pas de moyenne réelle, si vous souhaitez des recommandations sur quoi acheter, n'hésitez pas à nous revenir avec autant d'informations que possible - cela devrait inclure le budget, le type d'application, la taille de l'ensemble de données, la base d'utilisateurs , matériel / OS et tout ce que vous pensez serait utile.

En ce qui concerne votre copie de 1,5 To, eh bien, si vous faisiez cela sur un disque SATA 7200 tr / min USB connecté, vous devriez obtenir au moins 30 Mbps-40 Mbps ou alors la pleine 1,5 To pourrait prendre plus de 10 heures environ. S'il s'agissait d'un système DAS / SAN professionnel typique, je m'attendrais à environ 100 Mo / s, ce qui signifie qu'il faudrait environ 3 heures.

J'espère que cela aide, oh et juste pour clarifier, MB = mégaoctets, Mb est mégabits.


8

Il y a beaucoup, beaucoup de variables impliquées dans ces types de calculs. Les systèmes de disques du monde réel ont beaucoup d'interdépendances. Sur un seul ordinateur:

  • Vitesse nominale réelle du variateur lui-même (généralement les tr / min, 5200, 7200, 10K, 15K)
  • Le système de fichiers utilisé
  • Qu'un système RAID soit utilisé ou non
    • Si tel est le cas, les performances de la carte RAID
    • Le type de RAID
  • Le système d'exploitation utilisé
  • Les opérations de lecture et d'écriture ont des caractéristiques de performances complètement différentes
  • Le rapport lecture / écriture pour les opérations
  • Pour les opérations séquentielles, le facteur de fragmentation du stockage

Comme vous pouvez le voir, la vitesse d'un disque lui-même n'est qu'un des nombreux facteurs. C'est un facteur important, mais toujours l'un des nombreux. Si cette copie de 1,5 To se trouve sur le même disque, le disque effectuera (95% de chances) une performance de lecture / écriture aléatoire de 100%, ce qui se traduit généralement par les pires mesures de performances. Si la copie se fait d'un disque à un autre et que les données sont 100% séquentielles et que le disque cible est complètement vide, cela devrait permettre d'obtenir les performances les plus rapides possibles avec ce sous-système de disque. Les performances réelles se situeront quelque part entre ces deux extrêmes.

Si vous copiez entre deux serveurs distincts, il y a encore plus de facteurs impliqués.

J'ai une matrice de stockage au travail qui peut saturer les canaux SAS 3Gb (gigaBIT) lorsque je fais des opérations en grande partie séquentielles. Si j'avais 6 Go de SAS, cela pourrait probablement être très proche de saturer ceux-là aussi. Pour les E / S aléatoires, ce système particulier fonctionne très différemment en fonction de ce qu'est le système d'exploitation (OpenSolaris, par exemple, avait les pires E / S aléatoires et Linux XFS le meilleur par un facteur de 3).

Il y a tout simplement trop de variables pour répondre définitivement à ces questions.


3

Le temps nécessaire pour copier 1,5 To de données dépend beaucoup du type de données. Si vous avez quelques 1 500 fichiers de 1 Go, cela ne prendra probablement que quelques heures, mais si vous avez un milliard et demi de fichiers de 1 Ko, cela prendra probablement des jours.

Cela est dû à deux spécifications conflictuelles sur les disques: le débit et le temps d'accès moyen. Un disque traditionnel avec un débit de 100 Mo / s et un temps d'accès de 10 ms est assez courant. Si vous pouvez diffuser des données séquentiellement, vous pouvez obtenir 100 Mo / s. Cependant, si vous devez sauter à un autre endroit, cela prend 10 ms. Si vous aviez diffusé en continu, vous auriez pu écrire 1 Mo de données dans le temps qu'il faut pour passer à un autre emplacement.

La création d'un fichier peut prendre plusieurs recherches, donc la création d'un fichier de 1 Ko peut "coûter" autant que la diffusion de plusieurs Mo de données.

Ainsi, dans certains cas, il est préférable de faire une copie de disque brute du périphérique de bloc que de copier sur le système de fichiers via quelque chose comme rsync. Si vous avez beaucoup de fichiers, dans un système de fichiers qui est, par exemple, plein à 50% ou plus, il est souvent préférable de simplement copier le périphérique de bloc complet via "dd", en ce qui concerne le temps qu'il faut. Bien sûr, vous ne pouvez pas faire cela pendant que le système de fichiers est monté, donc cela a aussi des inconvénients.

Les SSD peuvent aider à atténuer cela, car leurs temps d'accès sont environ 100 fois plus rapides, mais les disques SSD MLC ont des problèmes d'accès complexes en fonction de la disponibilité d'un pool de blocs pré-effacés. Les SSD SLC peuvent vous aider.

Les contrôleurs RAID avec cache intégré peuvent aider à la recherche, tout comme le module de noyau flashcache qui vous permet de mettre en cache un périphérique de bloc via un SSD.

Les systèmes RAID peuvent permettre plusieurs recherches parallèles, réduisant efficacement le temps d'accès moyen, ainsi que la parallélisation pour augmenter le débit. Mais vos performances globales dépendent souvent du nombre de fichiers impliqués.

En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.