Y a-t-il une raison de changer le disque dur d'un serveur avant qu'il ne tombe en panne?


11

Juste une question rapide: y a-t-il une raison de changer le disque dur d'un serveur après x ans avant qu'il ne tombe en panne (il finira par le faire à un moment donné) ou dois-je le laisser jusqu'à ce qu'il tombe en panne? J'ai peu d'expérience avec l'administration réelle du serveur, donc je me demande ...


Je ne m'attendais pas à obtenir autant de réponses, wow :) Après les avoir toutes examinées et en tenant compte du fait que a) Les disques durs du serveur sont adéquats à cet effet b) La sauvegarde est absolument garantie (Utilisation de RAID + esclave de réplication + sauvegarde quotidienne pour une source externe) Je ne trouve aucune raison de suggérer un changement de lecteur. Merci a tous!
Spiros

Réponses:


8

Une bonne raison de le changer est si vous voulez ajouter une autre tâche à votre liste de choses à faire tout en augmentant les risques de problème.

Blague à part, il n'y a vraiment aucune raison dont j'ai entendu parler pour changer le lecteur à l'avance. Si vous avez RAID en place, vous avez déjà une protection en place (en supposant que vous avez des sauvegardes décentes), et vous ne générez pas de déchets sous la forme d'un disque mort à éliminer et vous n'avez pas à travailler inutilement sur l'élimination les données sensibles du lecteur. Vous ne dépenserez pas d'argent supplémentaire pour de nouveaux disques et vous ne protégerez pas de manière proactive contre les choses qui pourraient toujours mal tourner de toute façon, comme un contrôleur de disque défectueux, ce qui n'est pas courant en tant que source de panne de disque mais peut se produire.

D'un autre côté, cela pourrait vous aider à découvrir des erreurs de disque irrécupérables qui ne déclenchent pas d'alarmes sur l'unité RAID, comme nous l'avons fait avec RAID 5. Nous avons été mordus par cela et avons finalement dû reconstruire à partir du métal nu à partir de la sauvegarde (donc même dans ce cas, une sauvegarde appropriée vous aidera à récupérer.) Un niveau RAID qui prend en compte les capacités de disque plus importantes et les tolérances d'erreur irrécupérables d'aujourd'hui nous aurait aidé, sinon, les sauvegardes sauvent la situation.

La plupart des administrateurs ont un plan RAID et de sauvegarde décent, il n'est donc pas vraiment nécessaire de générer des déchets supplémentaires en remplaçant inutilement les disques.


6

La seule fois où je pourrais envisager cela, c'est si j'avais un tas de disques du même lot et que d'autres dans le lot avaient commencé à échouer, alors je pourrais y penser.

Si j'étais serré sur l'espace, alors bien sûr, je le ferais - mais pour aucune autre raison que simplement parce qu'il vieillit? Non, car en moyenne, le taux d'échec de la première année est similaire au taux d'échec des autres années . (notez que le graphique décompose la première année sur 3 mois, 6 mois, 1 an, mais vous devrez les additionner tous ensemble pour avoir une chance d'échec à 1 an). Et lorsque l'on considère une utilisation élevée du disque, il est plus probable qu'il échoue au cours de la première année que dans les trois prochaines années combinées.

La seule corrélation avec une panne de disque tardive était dans les pièces plus chaudes, et nous gardons nos salles de serveurs au frais.


5

Je suis tout à fait proactif, mais je ne l'ai jamais fait et je n'ai jamais entendu parler de quelqu'un qui le fasse. Vraisemblablement, vous avez un certain type de configuration RAID et avez régulièrement des sauvegardes valides pour le ou les systèmes en question.


5
+1, je n'y ai jamais pensé. Remplacer un disque, juste au cas où, et déclencher intentionnellement une reconstruction de baie ne semble pas être le meilleur moyen "d'exercer" les disques de production restants. Soyez plus difficile d'expliquer au patron pourquoi le système est en panne si la reconstruction échoue.
jscott

3
Je remplace les disques qui ont des erreurs SMART, mais je considérerais qu'ils ont échoué, même s'ils fonctionnent toujours techniquement.
Chris S

4

Oui, performance et capacité. Si l'ancien disque dur fait des lectures soutenues de 70 Mo / s et 100 IOPS et que le remplacement potentiel fait des lectures soutenues de 200 Mo / s et 175 IOPS et a également 3 fois la capacité, vous pourriez être justifié d'acheter de nouveaux disques et de remplacer l'ancien par de nouveaux simplement pour raisons de performance / capacité. (et ces chiffres sont totalement inventés, le fait est que les nouveaux peuvent être beaucoup plus rapides).

Maintenant, que faites-vous avec les anciens disques. Vous pouvez les utiliser dans un serveur de test, ou les ajouter à une sauvegarde sur une baie de disques, ou les conserver comme pièces de rechange d'urgence. Ou vous pouvez simplement les essuyer et les renvoyer pour élimination.

Votre serveur moyen de nos jours est plus lié aux E / S qu'au processeur (ou du moins à tous). Donc, si vous avez un très vieux serveur qui n'a aucun problème de temps CPU ou de pénurie de mémoire, vous avez probablement de la place pour améliorer considérablement les performances en remplaçant les disques durs qui sont plusieurs générations derrière ce que vous pouvez facilement acheter pour les remplacer.


3

Cela dépend de l'impact en cas de panne du disque dur.

Si vous n'avez pas de RAID
Si vous ne vous souciez pas de la disponibilité du serveur parce que le service peut être arrêté ou parce qu'il est en haute disponibilité et si vous avez une sauvegarde de données qui fonctionne. Je dirais Ok, laissez le lecteur mourir et changez-le et restaurez les données en cas d'échec.
Si vous vous souciez de la disponibilité, je dirai utiliser RAID;)

Si vous avez un RAID (1, 5, 6, ...)
je dirais, pourquoi changer le disque dur avant faute? RAID (et sauvegarde) est là pour ça. Changer un disque dur juste au cas où il pourrait échouer est un risque de casser quelque chose (la reconstruction d'un raid est toujours risquée)

Mais ce n'est que mon point de vue! Si vous pensez que votre disque est peut-être trop ancien, vous pouvez également changer de serveur.


2

Certains disques meurent en 1 heure, d'autres durent 2 décennies.

Si ce n'est pas un échec ou un échec (quelque chose que vous pouvez généralement établir via la surveillance SMART ou des problèmes de performances), la seule autre raison de le jeter est s'il n'est pas assez grand ou assez rapide pour vos besoins.


1
Surveillez simplement le lecteur avec SMART et il montrera généralement les signes de panne avant qu'il ne soit trop tard.
Prof. Moriarty

L'étude de disque de masse de @Prof Google a montré que SMART était "généralement" fiable dans 44 à 72% des cas. static.googleusercontent.com/external_content/untrusted_dlcp/…
jscott

2

Avec les disques, la question n'est pas de savoir s'ils échoueront, mais quand . Ce sont des appareils mécaniques (à moins d'utiliser des SSD, mais ils ont leurs propres mises en garde), ils échoueront donc tôt ou tard.

Les vendeurs de disques ont tendance à adapter leurs processus de fabrication pour qu'ils soient aussi bon marché que possible, car même un seul centime économisé par disque peut être très important lorsque vous en produisez et en vendez des milliers; mais ils ne veulent bien sûr pas que leurs disques tombent en panne avant la fin de la période de garantie, ou ils les remplaceraient tout le temps gratuitement; ainsi, ils dépenseront volontiers autant que nécessaire pour les faire durer aussi longtemps que la garantie les couvre ... mais pas un seul centime de plus.

Le résultat final est: la plupart des disques ont tendance à tomber en panne peu de temps après la fin de la période de garantie. Ce n'est bien sûr pas une règle générale, ce ne sont que des statistiques, et votre disque peut échouer maintenant ou durer jusqu'à ce que vous n'en ayez plus besoin ... mais, statistiquement, il y a beaucoup de disques qui échouent quelques jours ou mois après leur Garantie expirée.

Bien sûr, en acheter de nouveaux lorsque vous n'en avez toujours pas besoin peut être coûteux ... mais les remplacer après l'expiration de la garantie et ils ont échoué sera de toute façon coûteux.

Maintenant, si vous pouviez trouver un moyen de les faire échouer tout en étant garantis (et de ne pas perdre de données dans le processus, c'est-à-dire d'avoir de bonnes sauvegardes RAID ET ), eh bien, ce serait optimal ;-)


2

Je ne remplacerais pas plus un lecteur en état de marche que je ne remplacerais une alimentation en état de marche. Les deux finiront par échouer mais cela n'a aucun sens, ni techniquement ni financièrement, de les remplacer sans motif valable. Remplacez-les lorsqu'ils commencent à montrer des signes de problèmes.

Dans le cas des disques durs, la tendance est que si un disque tombe en panne tôt, il le fera plus que probablement au cours de la première année. Les disques qui ont fonctionné sans problème pendant 6 ans peuvent normalement être utilisés pour continuer à fonctionner pendant encore au moins quelques années. Évidemment, il y a de nombreuses exceptions à cela, mais c'est la tendance générale.


1
Vous (généralement) ne perdez pas de données en cas de panne de courant ...
Massimo

1
@Massimo - Vrai, mais sur un serveur, vous ne perdez également généralement pas de données lorsqu'un disque tombe en panne. À mon avis, s'il n'y a pas de redondance, c'est juste un poste de travail glorifié, pas un vrai serveur.
John Gardeniers

1

Gardez également à l'esprit que la plupart des disques de classe serveur ont des exigences de fabrication plus strictes et sont généralement plus fiables que les disques de bureau à faible coût / budget. Ainsi, en plus des dangers de remplacer un «bon» disque en cas de défaillance éventuelle, le faire pour une large baie peut représenter une somme d'argent importante.

De plus, lorsque vous utilisez un RAID, c'est pourquoi il est judicieux d'avoir au moins un disque de secours sur le serveur, afin qu'il puisse rapidement commencer à reconstruire et rester en bonne santé jusqu'à ce que vous achetiez des remplacements au besoin.


1

Je l'ai fait sur des systèmes "sans temps d'arrêt". Vraiment cependant, vous risquez tout aussi bien de perdre un disque différent lors de la reconstruction du RAID ... J'en ai échangé un une fois, puis j'ai fini par le réintégrer lorsqu'un autre disque a commencé à générer des erreurs pendant la reconstruction.

C'est vraiment une question de philosophie: si vous croyez aux tests de stress proactifs (à la fois de la matrice et de votre système cardiovasculaire), vous devez échanger vos disques. Mais vraiment, vous ne saurez jamais quel disque va mal tourner ensuite. Il n'est pas du tout improbable que vous puissiez perdre le disque nouvellement remplacé avant de perdre l'un des disques les plus anciens et éprouvés.

Cela étant dit, je perdrais mon temps à tester la tension de ma solution de sauvegarde et laisserais les disques en paix jusqu'à ce qu'ils commencent à lancer des erreurs.

En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.