J'ai un petit serveur Ubuntu fonctionnant à la maison, avec 2 disques durs. Il y a deux raids logiciels (raid1) sur les disques, gérés par mdadm, ce qui, je crois, n'est pas pertinent, mais le mentionne quand même.
Les deux disques durs sont Western Digital et sont utilisés depuis environ 2 ans, lorsque l'un d'eux a commencé à faire des bruits de cliquetis et est mort. J'ai pensé que c'était peut-être naturel après 2 ans, alors j'en ai acheté un nouveau et j'ai resynchronisé les tableaux de raid. Après environ un mois, l'autre lecteur est également décédé.
Je ne me suis pas méfié, puisque les deux disques ont été achetés en même temps, il n'est pas surprenant de les voir l'un près de l'autre, alors j'en ai acheté un autre.
Jusqu'à présent, 2 anciens disques sont tombés en panne, et 2 neufs dans le système. Après un mois, l'un des nouveaux disques est mort. C'est alors que ça a commencé à devenir suspect. Depuis que le PC a été assemblé à partir de parties très anciennes (pensez AthlonXP), je me suis dit que peut-être le contrôleur SATA de la carte mère était le coupable. Bien sûr, vous ne pouvez pas changer facilement de pièces dans un ancien PC comme celui-ci, j'ai donc acheté un système entier, un nouveau Mo, un nouveau processeur, une nouvelle RAM. J'ai récupéré le lecteur qui venait de tomber en panne, car il était sous garantie, et je l'ai remplacé.
Il s'agit donc d'un maximum de 2 disques défectueux à partir des anciens et 1 disque défectueux à partir des nouveaux. Aucun problème, pendant 1 mois. Après cela, les erreurs remontaient dans / var / log / messages, et mdadm signalait des échecs de la baie de raid. J'ai commencé à arracher mes cheveux. Tout est nouveau dans le système, c'est jusqu'au troisième disque dur flambant neuf, il n'est tout simplement pas possible que tous les nouveaux disques que j'ai achetés soient défectueux.
Voyons ce qui est encore courant ... les câbles. D'accord, longue vue, remplaçons les câbles SATA. Reprenez le disque dur, souriez au gars au comptoir et dites que je suis vraiment malchanceux. Il remplace le disque dur. Je rentre à la maison, un mois s'écoule et l'un des disques durs tombe en panne. Je ne plaisante pas.
Deux des nouveaux disques durs sont tombés en panne. C'est peut-être un bug dans le système d'exploitation. Voyons ce que dit l'outil de test du fabricant. Téléchargez l'outil de test, gravez-le sur un CD, redémarrez, laissez le test du disque dur pendant la nuit. Le test indique que le lecteur est défectueux, et je devrais tout sauvegarder, si je le peux encore. Je ne sais pas ce qui se passe, mais cela ne ressemble pas à un problème logiciel, quelque chose écrase définitivement les disques durs.
Je dois mentionner maintenant que tout le système est dans une boîte à chaussures. Puisqu'il y a un tas de trucs "construisez votre propre étui ikea", je pensais qu'il ne devrait pas y avoir de problèmes à jeter la chose dans une boîte et à la ranger quelque part. La boîte est bien ventilée, mais je pensais que les disques surchauffaient peut-être. Il n'y a pas d'autre réponse possible à cela. J'ai donc repris le disque dur et l'ai remplacé (pour la 3e fois), et j'ai acheté des refroidisseurs de disque dur.
Et tout à l'heure, j'ai entendu le son du destin. cliquez sur cliquez sur whizzzzzzzzz . SSH dans la boîte:
You have new mail!
mail
r 1
DegradedArrayEvent on /dev/md0 ...
sortie dmesg:
[47128.000051] ata3: lost interrupt (Status 0x50)
[47128.000097] end_request: I/O error, dev sda, sector 58588863
[47128.000134] md: super_written gets error=-5, uptodate=0
[48043.976054] ata3: lost interrupt (Status 0x50)
[48043.976086] ata3.00: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x6 frozen
[48043.976132] ata3.00: cmd c8/00:18:bf:40:52/00:00:00:00:00/e1 tag 0 dma 12288 in
[48043.976135] res 40/00:00:00:4f:c2/00:00:00:00:00/00 Emask 0x4 (timeout)
[48043.976208] ata3.00: status: { DRDY }
[48043.976241] ata3: soft resetting link
[48044.148446] ata3.00: configured for UDMA/133
[48044.148457] ata3.00: device reported invalid CHS sector 0
[48044.148477] ata3: EH complete
Résumer:
- Pas de possibilité de surchauffe
- 6 disques ont échoué, 4 d'entre eux étaient neufs. Je ne suis pas sûr maintenant que les deux originaux aient été défectueux ou aient subi la même chose que les nouveaux.
- Il n'y a rien de commun dans le système, à part le système d'exploitation qui est maintenant Ubuntu Karmic (commencé avec Jaunty). Nouveau MB, nouveau CPU, nouvelle RAM, nouveaux câbles SATA.
- Non, les petits trous sur le disque dur ne sont pas couverts
Je pleure. Vraiment. Je n'ai pas le visage pour retourner au magasin maintenant, il n'est pas possible que 4 disques tombent en panne en moins de 4 mois.
Quelques idées auxquelles j'ai pensé: est-il possible que je gâche quelque chose lorsque je partitionne et resynchronise les disques? Peut-il être si mauvais qu'il détruit physiquement le lecteur? (puisque l'outil fourni par le fournisseur indique que le lecteur est endommagé) Je fais le partitionnement avec fdisk et j'utilise la même taille de bloc pour les partitions raid1 (je vérifie les tailles de bloc exactes avec fdisk -lu)
Est-il possible que le noyau Linux ou mdadm, ou quelque chose ne soit pas compatible avec cette marque exacte de disques durs, et les écrase?
Est-il possible que ce soit la boîte à chaussures? Essayez de le placer ailleurs? C'est sous une étagère maintenant, donc l'humidité n'est pas un problème non plus. Est-il possible qu'un boîtier PC normal résout mon problème (je vais me tirer dessus ensuite)? Je vais avoir une photo demain.
Suis-je simplement maudit?
Toute aide ou spéculation est grandement appréciée.
Edit : la multiprise est protégée contre les surtensions.
Edit2 : J'ai emménagé entre ces 4 mois, donc la possibilité que la cause soit de l'électricité "sale" aux deux endroits, est très faible.
Edit3 : J'ai vérifié les tensions dans le BIOS (je n'ai pas pu emprunter un multimètre), et elles semblent toutes correctes, la plus grande différence est dans le 12V, car il fournit 11,3. Dois-je m'en inquiéter?
Edit4 : J'ai mis le PSU de mon PC de bureau dans le serveur. Le BIOS a signalé des lectures de tension beaucoup plus précises, et il a également réussi à reconstruire la matrice raid1, ce qui a pris environ 3 à 4 heures, donc je me sens un peu positif maintenant. Obtiendra une nouvelle alimentation demain pour tester avec ça. En outre, en joignant l'image sur la boîte: (ignorez le 3ème lecteur)