Nous avons un serveur Linux qui est très utilisé depuis 3 ans. Nous y exécutons un certain nombre de serveurs virtualisés, certains qui ne se sont pas bien comportés, et pendant un temps considérable, la capacité io du serveur a été dépassée, ce qui a entraîné de mauvais iowait. Il dispose de 4 disques SATA Barracuda de 500 Go connectés à un contrôleur RAID 3com. 1 Drive a le système d'exploitation et les 3 autres sont configurés raid-5.
Nous avons maintenant un débat sur l'état des disques et sur leur défaillance active.
Voici une partie de la sortie pour 1 des 4 disques. Ils ont tous des statistiques relativement similaires:
Numéro de révision de la structure de données des attributs SMART: 10 Attributs SMART spécifiques au fournisseur avec seuils: ID # ATTRIBUTE_NAME DRAPEAU VALEUR PIRE TYPE DE SEUIL MIS À JOUR LORSQUE_FAILED RAW_VALUE 1 Raw_Read_Error_Rate 0x000f 118 099 006 Pré-échec toujours - 169074425 3 Spin_Up_Time 0x0003 095 092 000 Pré-échec toujours - 0 4 Start_Stop_Count 0x0032 100100 020 Old_age Always - 26 5 Reallocated_Sector_Ct 0x0033 100100 036 Pré-échec toujours - 0 7 Seek_Error_Rate 0x000f 077 060 030 Pré-échec toujours - 200009354607 9 Power_On_Hours 0x0032 069 069 000 Old_age Always - 27856 10 Spin_Retry_Count 0x0013 100 100 097 Pré-échec toujours - 1 12 Power_Cycle_Count 0x0032 100100 020 Old_age Always - 26 184 Unknown_Attribute 0x0032 100100 099 Old_age Always - 0 187 Reported_Uncorrect 0x0032 100100 000 Old_age Always - 0 188 Unknown_Attribute 0x0032 100100 000 Old_age Always - 1 189 High_Fly_Writes 0x003a 100100 000 Old_age Always - 0 190 Airflow_Temperature_Cel 0x0022 071 060 045 Old_age Always - 29 (Lifetime Min / Max 26/37) 194 Temperature_Celsius 0x0022 029 040 000 Old_age Always - 29 (0 21 0 0) 195 Hardware_ECC_Recovered 0x001a 046033000 Old_age Always - 169074425 197 Current_Pending_Sector 0x0012 100100 000 Old_age Always - 0 198 Offline_Uncorrectable 0x0010 100100 000 Old_age Offline - 0 199 UDMA_CRC_Error_Count 0x003e 200 200 000 Old_age Always - 0 Version du journal des erreurs SMART: 1 Aucune erreur enregistrée
Mon interprétation de ceci est que nous n'avons pas eu de mauvais secteurs ou d'autres indications que l'un des disques tombe en panne.
Cependant, les valeurs Raw_Read_Error_Rate et Seek_Error_Rate élevées sont signalées comme des indications que les lecteurs sont en train de mourir.