Quelques vérités domestiques sur le stockage, ou pourquoi le stockage d'entreprise est-il si coûteux?
Les disques durs grand public offrent de grands volumes, de sorte que même les utilisateurs les plus avisés de * médias en streaming * toux * * toux * peuvent acheter suffisamment pour stocker une collection de plusieurs téraoctets. En fait, la capacité de disque a augmenté plus rapidement que le transistor ne compte sur le silicium depuis deux décennies maintenant.
Le stockage «d'entreprise» est un problème un peu plus complexe, car les données ont des exigences de performances et d'intégrité qui dictent une approche un peu plus lourde. Les données doivent avoir une garantie de disponibilité en cas de défaillance matérielle et doivent éventuellement être partagées avec un grand nombre d'utilisateurs, ce qui générera beaucoup plus de demandes de lecture / écriture qu'un seul utilisateur.
Les solutions techniques à ce problème peuvent être beaucoup, beaucoup plus chères par gigaoctet que les solutions de stockage grand public. Ils nécessitent également un entretien physique; les sauvegardes doivent être effectuées et souvent stockées hors site, de sorte qu'un incendie ne détruise pas les données. Ce processus ajoute des coûts permanents.
Performance
Sur votre lecteur de proximité ou même d'entreprise de 1 To, vous n'avez qu'une tête. Le disque tourne à 7200 tr / min, soit 120 tours par seconde. Cela signifie que vous pouvez obtenir au maximum 120 opérations d'E / S à accès aléatoire par seconde * en théorie * et un peu moins dans la pratique. Ainsi, la copie d'un fichier volumineux sur un seul volume de 1 To est relativement lente.
Sur une grappe de disques avec 14 disques de 72 Go, vous disposez de 14 disques centraux à (disons) 15 000 tr / min ou environ 250 tours par seconde. Cela vous donne un maximum théorique de 3 500 opérations d'E / S aléatoires par seconde * (encore une fois, un peu moins dans la pratique). Toutes choses égales par ailleurs, une copie de fichier sera beaucoup, beaucoup plus rapide.
*
Vous pouvez obtenir plusieurs accès aléatoires par révolution du disque si la géométrie des lectures permet au lecteur de déplacer les têtes et de lire un secteur disponible au cours d'une révolution du disque. Si les accès au disque ont été largement dispersés, la moyenne sera probablement inférieure à un. Lorsqu'une matrice de disques formatée en bandes (voir ci-dessous), vous obtiendrez un maximum de bandes lues par tour de disque dans la plupart des circonstances et (selon le contrôleur RAID), peut-être moins d'une en moyenne.
Le disque dur à 1 200 tr / min à 7 200 tr / min sera probablement assez rapide pour les E / S séquentielles. Les baies de disques formatées en bandes (RAID-0, RAID-5, RAID-10, etc.) peuvent généralement lire au plus une bande par tour de disque. Avec une bande de 64 Ko, nous pouvons lire 64Kx250 = 16 Mo environ de données par seconde avec un disque de 15 000 tr / min. Cela donne un débit séquentiel d’environ 220 Mo par seconde sur un ensemble de 14 disques, ce qui n’est pas beaucoup plus rapide sur papier que 150 Mo / s ou environ pour un disque SATA moderne de 1 To.
Pour le streaming vidéo (par exemple), une grappe de 4 disques SATA dans un RAID-0 avec une taille de bande importante (certains contrôleurs RAID prendront en charge des tailles de bande allant jusqu'à 1 Mo) offre un débit séquentiel assez important. Cet exemple pourrait théoriquement diffuser environ 480 Mo / s, ce qui est suffisamment confortable pour effectuer un montage vidéo HD non compressé en temps réel. Ainsi, les propriétaires de Mac Pro et de matériel similaire peuvent effectuer des tâches de composition vidéo HD qui auraient nécessité une machine avec une matrice de fibres à connexion directe il y a quelques années à peine.
L'avantage réel d'une grappe de disques réside dans le travail sur la base de données, qui se caractérise par un grand nombre de petites requêtes d'E / S dispersées. Sur ce type de charge de travail, les performances sont limitées par la latence physique des bits de métal dans le disque, qui va et vient. Cette métrique est appelée IOPS (opérations d'E / S par seconde). Plus vous avez de disques physiques, quelle que soit leur capacité, plus vous pouvez théoriquement faire d'IOPS. Plus d'IOPS signifie plus de transactions par seconde.
Intégrité des données
De plus, la plupart des configurations RAID vous offrent une certaine redondance des données, ce qui nécessite par définition plus d'un disque physique. La combinaison d'un schéma de stockage avec une telle redondance et d'un plus grand nombre de disques permet à un système de servir de manière fiable une charge de travail transactionnelle importante.
L'infrastructure des baies de disques (et des réseaux de stockage (SAN) dans le cas le plus extrême) n'est pas exactement un élément du marché de masse. En outre, c’est l’un des éléments qui ne peut vraiment, vraiment pas échouer. Cette combinaison de construction standard et de volumes de marché moins élevés n’est pas bon marché.
Coût total du stockage, sauvegarde comprise
En pratique, les coûts les plus importants pour la maintenance de 1 To de données sont probablement la sauvegarde et la restauration. Un lecteur de bande et 34 jeux de bandes SDLT ou Ultrium pour un cycle complet de sauvegarde et de restauration de votre grand-père coûteront probablement plus cher qu'une baie de disques de 1 To. Ajoutez à cela les coûts de stockage hors site et le salaire d'un simple singe à bande, et tout à coup, votre 1 To de données n'est plus aussi économique.
Le coût des disques est souvent assez juste dans la hiérarchie des coûts de stockage dominants. Dans une banque, j’avais eu l’occasion de travailler pour le stockage SAN, c’est 900 £ / Go pour un système de développement et 5 000 £ / Go pour un disque sur un serveur de production. Même au prix du fournisseur de l’entreprise, le coût physique des disques n’était qu’une infime fraction de cela. Je sais qu'un autre exemple concerne un SAN IBM Shark (relativement) configuré, qui leur a coûté plus d'un million de livres sterling. Seul le stockage physique sur ce disque coûte environ 9 £ / gigaoctet, soit environ 9 000 £ pour un espace équivalent à votre disque dur grand public de 1 To.