Espace libre «obligatoire» sur un SAN?

Je ne suis pas un expert des SAN, j'écris ici pour obtenir des indices sur les problèmes continus et exaspérants que nous rencontrons que notre fournisseur ne semble pas être en mesure de résoudre.

nous possédons un SAN ENHANCE ES3160P4 avec 16 disques de 2 To qui a été fourni pour notre système de vidéosurveillance. Le SAN a été configuré par le fournisseur pour utiliser 14 disques dans une matrice RAID 5, et 2 disques sont des disques de rechange globaux. Le RAID est généralement divisé en 2 disques virtuels de taille égale qui s'étendent sur tout l'espace RAID. Chacun se révèle être quelque chose de plus de 12 To. Chaque disque virtuel correspond à un seul LUN, qui est connecté à un seul serveur vidéo qui stocke en continu les données vidéo et permet aux utilisateurs de récupérer des enregistrements en cas de besoin. Les LUN sont formatés avec NTFS et sont connectés aux serveurs vidéo Windows Server 2012 via iSCSI. Les serveurs vidéo ont tendance à utiliser pleinement l'espace disponible dont ils disposent.

Avec cette configuration, les disques du SAN échouent et échouent, et chaque fois que le SAN ne peut pas récupérer le RAID car un autre disque tombe en panne entre-temps. Nous avons perdu le RAID comme 4 fois au cours des derniers mois.

Ce problème ne semble pas être dû à un mauvais échantillon SAN, car nous possédons trois autres machines du même type configurées de manière similaire qui semblent avoir les mêmes problèmes. Un seul n'a pas de problèmes, mais pour le moment il est sous-utilisé.

Après quelques mois de tests et de vérifications inconnus, le fournisseur a fini par dire qu'il était bien connu que le SAN ne devait pas être utilisé à 100% ou qu'il se dégraderait rapidement, également physiquement, et a déclaré que pour résoudre le problème, les disques virtuels devaient être créés laissant 10-15% de l'espace total disponible dans le RAID.

J'ai cherché sur le Web le problème et je n'ai pas trouvé de déclarations spécifiques le disant. Il me semble qu'il serait plus raisonnable de créer des disques virtuels couvrant l'ensemble du RAID, puis de sous-utiliser les LUN (c'est-à-dire, permettant à Windows d'avoir de l'espace libre et d'éviter la fragmentation). Sinon, je ne comprends pas pourquoi le SAN ENHANCE permet de créer des disques virtuels qui couvrent l'ensemble du RAID s'il est si "bien connu" qu'il reste de l'espace libre, et pourquoi le fournisseur a configuré le système comme ça au début ... mais c'est un autre point.

En fin de compte, nous voulons résoudre cette situation. Toute suggestion est acceptée. Comme je l'ai dit, je ne suis pas un expert en SAN, mais après tant de problèmes, j'aimerais vraiment savoir si le fournisseur sait ce qui se passe ou non, car nous ne pouvons plus accepter cette situation.

Merci d'avance! Cordialement

Edit: type de disque D'après la réponse, il semble que ce soit des informations pertinentes, j'ajoute que les disques sont tous du modèle Western Digital WD2001FYYG-01SL3.

storage-area-network disk-space-utilization diskmanagement

— z2k
source

Tout système correctement conçu, s'il avait besoin d'espace de réserve pour fonctionner correctement, réserverait de l'espace sans le proposer aux clients. Les instantanés peuvent avoir besoin d'espace et les systèmes de fichiers de copie sur écriture en ont, mais ceux-ci ont généralement une petite réserve à ces fins. Au moins par défaut, ce qui peut bien sûr être annulé par les utilisateurs s'ils sont prêts à prendre le risque.

— ptman

Au moins, les disques ont l'air bien, ce sont des disques SAS 24/7, mais ils ne devraient pas échouer aussi souvent ...

— Sven

L'iossue n'est pas de l'espace libre, c'est une configuration idiote. 14 disques dans un Raid 5 ne sont pas stables par mathématiques, simple comme ça. Même Raid 6 peut le taxer. Généralement - un Raid avec des disques de 2 To n'est pas statistiquement stable. Période.

— TomTom

@TomTom: Si vous pensez que ce sont des mathématiques simples, veuillez répondre à la question montrant les mathématiques. Mes calculs de serviette disent que le tableau est stable s'il est peu probable que la lecture de 13 * 2 To pour reconstruire un tableau dégradé échoue. Le raid 6 est bien sûr meilleur, c'est stable s'il est peu probable que la reconstruction rencontre un double défaut.

— MSalters

With this configuration the disks of the SAN are failing and failing, and each time the SAN cannot recover the RAID because another disk fails in the meanwhile. We lost the RAID like 4 times in the last few months.

C'est exactement parce que, comme le dit TomTom, les disques sont trop gros pour RAID5. Et probablement RAID 6 aussi, FWIW. Vos chances d'une reconstruction réussie sont loin d'être à 100%, et vous le savez parce que vous, vous-même, avez déclaré que vous avez eu "comme 4" reconstructions infructueuses en quelques mois. Votre configuration RAID est idiote et votre fournisseur est incompétent, aussi simple que cela.

— HopelessN00b

Réponses:

D'après ce que vous décrivez, le principal problème est qu'ils ont décidé d'utiliser un RAID5 pour une si grande baie, ce qui est un mauvais choix pour cette configuration, pour exactement la raison pour laquelle vous rencontrez: Un échec d'un 2e disque pendant la récupération casse tout, et ce deuxième échec est trop susceptible de prendre ce risque.

S'ils avaient utilisé, par exemple, un RAID6 à la place, un échec d'un deuxième disque pendant la récupération ne conduirait pas à une matrice défaillante et la récupération pourrait se dérouler normalement, au prix d'un disque d'une capacité de stockage nette et d'un certain impact sur les performances.

Je ne vois pas comment laisser 15% d'espace libre pourrait aider à résoudre ce problème, et bien que cela puisse ou non être une bonne idée du point de vue des performances pour le système de fichiers, cela n'est clairement pas lié au RAID défaillant. J'appelle des conneries là-dessus.

Cela dit, je ne peux pas m'empêcher de me demander: le fait que cela se produise plusieurs fois au cours de quelques mois semble être trop, même pour un système RAID5. Je suggérerais d'examiner les types de disques utilisés - il se pourrait que votre fournisseur utilise des disques de bureau bon marché au lieu de disques 24/7 certifiés pour être utilisés dans un tel système.

— Sven
source

Merci pour vos contributions. J'ai édité la question en ajoutant le type de disque.

— z2k

Je comprends parfaitement qu'il s'agit d'un ancien article, mais comme je continue de voir de grandes baies RAID5 en production, je voudrais ajouter mes réflexions ici.

les disques défaillants trop souvent sont généralement un cas de surchauffe et / ou de vibrations excessives, qui peuvent être trouvées sur des systèmes mal conçus ou de mauvais emplacements
de telles baies RAID5 doivent être fortement évitées. En règle générale, est beaucoup mieux d'avoir un tableau de RAID6 plutôt que d' un RAID5 + hotspare un. Dans le cas OP, plutôt que d'avoir 1x disque de parité avec 2x hotspares globales, il était préférable d'avoir 2x disque de parité dans une configuration RAID6;
il est essentiel d'avoir un système fiable de rapport d'erreurs et d'état: une baie non surveillée dégradée sans le savoir est une recette pour un désastre.

— shodanshok
source

continuer à voir de grandes baies RAID5 en production "Plus grand doit être mieux!", non? J'ajouterais également que de si grandes baies ont des performances HORRIBLES en général en raison de la mauvaise géométrie et des conflits entre plusieurs LUN partagés à partir de la même baie, même si les baies sont construites avec RAID6. IME à peu près les plus grandes baies que je recommanderais sont 4 + 1 RAID5 et 8 + 2 RAID6. Certains contrôleurs haut de gamme peuvent masquer certains problèmes de performances avec des baies plus grandes, mais le meilleur contrôleur n'aidera jamais les temps de reconstruction.

— Andrew Henle