Déchiffrement des messages syslog mpt2sas en cours

15

Sommaire

J'ai reçu ces messages cryptés dans syslog depuis que j'ai installé un nouveau matériel et je ne peux pas comprendre quel est le problème, s'il est sérieux, ou quoi faire à ce sujet.

Ils sont issus du nouveau SATA HBA et suivent un schéma. Je recevrai plusieurs du premier message suivi de plusieurs du deuxième message 5-30 secondes plus tard. Ils se présentent sous la forme de blobs qui sont tous enregistrés dans la même seconde et le montant exact de chacun varie entre environ 2 et 35. Cela peut prendre des minutes ou des heures entre les apparitions des entrées.

Exemple des deux messages:

Jul 13 06:06:23 durandal kernel: [366918.435596] mpt2sas0: log_info(0x31120303): originator(PL), code(0x12), sub_code(0x0303)
Jul 13 06:06:28 durandal kernel: [366923.145524] mpt2sas0: log_info(0x31110d01): originator(PL), code(0x11), sub_code(0x0d01)

Il s'agit toujours toujours de 0x31120303 suivi de 0x31110d01.

mpt2sas est le pilote de l'adaptateur de bus hôte SATA que j'utilise, mais le contenu de l'erreur est trop cryptique. Il ne me dit pas quel est le problème, avec quel disque ou port il est ni sa gravité.

Matériel

Supermicro X9SCL avec un Xeon E3-1220 et 8 Go de RAM.

HBA Supermicro AOC-USAS2-L8I SAS / SATA basé sur LSI SAS2008 connecté à un jeu de plateaux de disques Supermicro CSE-M35T-1B . Il a trois Western Digital WD30EZRX et deux Segate ST3000DM001 branchés. Tous les disques de 3 To (exactement le même nombre de secteurs en fait). Aucun expandeur de port utilisé.

Le HBA, les plateaux de disques et 4 des lecteurs sont nouveaux. L'un des WD30EZRX fonctionne depuis des mois, il n'a eu aucun problème. S'il l'avait précédemment connecté au contrôleur Intel SATA intégré, il l'a déplacé dans les baies de lecteur avec cette nouvelle configuration.

J'ai eu des problèmes avec le HBA qui devait être réinitialisé fréquemment et obtenir des performances vraiment horribles. Mise à jour du micrologiciel / bios vers "Phase 12", la dernière version disponible de Supermicro et changement du type en informatique (c'est-à-dire passthrough, de l'IR pour le raid intégré depuis que j'allais utiliser tous les raids logiciels): 2008IT12.FW. Cette mise à jour a résolu tous les premiers problèmes et je n'ai commencé à recevoir les messages ci-dessus que plus tard (voir ci-dessous).

Les quatre premiers disques que j'ai ajoutés sont tous sur le premier port SFF-8087 (divisé en 4 câbles SATA). Le dernier disque que j'ai ajouté se trouve sur l'autre port, si cela importe.

Le seul autre disque du système contient le système d'exploitation et est un ancien SSD Intel de 80 Go branché sur le contrôleur SATA intégré.

Logiciel

Ubuntu 11.10 (oneiric). Linux 3.0.0-14-serveur x86_64. Utilisation du pilote mpt2sas fourni avec le système d'exploitation.

Essayer de construire une matrice RAID6 en utilisant Linux md avec ces cinq disques. Commencé avec une matrice dégénérée de 3 disques, les deux Segates et l'un des nouveaux disques WD. Cela a été rapide et s'est très bien passé, aucun message dans les journaux après la mise à jour du firmware. Pendant ce temps, j'utilise toujours l'ancien disque WD sur le port 0 du même contrôleur.

Ajout de l'autre nouveau disque WD à la baie. La reconstruction a commencé et je reçois maintenant ces messages dans syslog périodiquement. Je ne sais pas combien de temps il est censé prendre pour ajouter un disque à la baie, mais le temps estimé (cat / proc / mdstat) varie de plusieurs milliers à plusieurs dizaines de milliers de minutes, beaucoup plus long que cela n'a pris les 3 premiers disques. Je comprends que les disques WD sont beaucoup plus lents; J'ai eu différents modèles pour réduire les risques de défaillance de plusieurs disques, et ce sont les deux modèles de 3 To les moins chers.

Remarques

SMART ne signale aucun problème sur aucun disque. Il n'y a aucune erreur enregistrée sur aucun disque et aucune des statistiques d'échec n'est proche du seuil.

Les messages enregistrés n'ont commencé à apparaître qu'après avoir ajouté le dernier disque, ce qui suggère que l'un peut avoir un problème mais je n'ai rien d'autre à signaler.

J'ai trouvé un fichier d'en-tête qui semble correspondre aux messages de journalisation de ce pilote. Le premier message semble être un abandon (code 12) pour un "sous-code" 0303 qui n'est pas répertorié. Le deuxième message est une réinitialisation (code 11) pour une raison qui n'est pas claire non plus. Si je pouvais déterminer ce que signifient 0303 et 0d01, ce serait vraiment utile.

Je sais que 4 disques dans un RAID6 à 5 disques est une matrice incomplète. Je prévois de copier le contenu de l'ancien disque sur la baie une fois qu'il a fini d'intégrer le 4ème disque, puis d'ajouter également l'ancien disque sur la baie.

— Chris Smith
source

5

Votre meilleur pari est probablement un problème matériel quelque part entre vos disques et jusqu'à et y compris votre contrôleur sas raid. Je recommande d'essayer:

Exécutez tous les outils de diagnostic du / des fournisseur (s) s'ils sont disponibles
Vérifier / réinstaller / remplacer les câbles
enlevez les composants matériels et échangez le matériel dans la chaîne qui relie les disques à votre contrôleur RAID, y compris le contrôleur lui-même (c'est-à-dire, pour vous, essayez autre chose que le RAID intégré de la carte mère).

J'avais un Dell PowerEdge R515 identique sur deux donnant des messages très similaires (les journaux se remplissant périodiquement de messages mpt2sas0, bien que je n'aie pas les codes numériques exacts). Le propre diagnostic amorçable de Dell a détecté ces erreurs comme des «erreurs matérielles» et le remplacement du fond de panier RAID sas a résolu le problème.

Lorsque j'enquêtais, je n'ai pas pu trouver de ressource complète sur la signification des différents codes d'erreur mpt2sas0. Je soupçonne qu'ils peuvent même être spécifiques au fournisseur de matériel (quelqu'un qui en sait plus sur SAS doit confirmer ou infirmer cela). Vos codes d'erreur pourraient donc signifier quelque chose de très différent, mais si SMART est propre, il est difficile d'imaginer d'autres bonnes raisons pour que mpt2sas0 signale des codes d'erreur.

Ces erreurs peuvent être très graves. Mon R515 a fonctionné apparemment OK avec ces messages pendant une semaine avec un raid logiciel Ubuntu Linux à 12 disques 6, mais a soudainement éjecté les 12 disques de la matrice comme cassés (!)

Dans mon cas également, le SMART pour tous les disques était complètement propre. Une bonne vérification est un test d'autodiagnostic intelligent:, smartctl -t long /dev/sdXpuis vérifiez les résultats environ un jour plus tard avec smartctl -l selftest /dev/sdX. Si tout est OK, le test doit dire Completedet la LBA_first_errcolonne doit être vide.

— Rickard Armiento
source

Remarque: le contrôleur RAID (HBA vraiment) est déjà une carte distincte. Le contrôleur SATA intégré fonctionne bien. J'ai un câble de remplacement SFF-8087 sur commande, devrait être là d'ici demain. C'est mon principal suspect à ce stade.

— Chris Smith

Le mauvais câble était le problème! J'ai remplacé les deux (deux ports SFF) par des câbles de meilleure qualité et je n'ai eu aucun problème depuis! J'accepte votre réponse car elle est la plus longue et suggère un mauvais câble. PS J'ai définitivement fait les longs tests SMART; aucun problème sur aucun des disques.

— Chris Smith

Ravi d'apprendre que vous avez trouvé le problème. Merci de l'acceptation.

— Rickard Armiento

Pour moi, c'est vraiment étrange que je rencontre ce problème avant aussi juste au cas de la plate-forme Dell PowerEdge. Même résultat, le problème était avec les câbles ...

— Mazeryt

3

Wow, difficile.

Cela semble indiquer que 0x31120303 est une réinitialisation du bus car l'un de vos appareils est sous forte charge. Il indique également que vous n'avez pas à vous en préoccuper. (Haha, ouais c'est ça.)

Cela indique que ces messages de journal se produisent car l'un de vos appareils prend trop de temps pour répondre aux commandes. Cela dit la même chose et indique également que cela se produit sous une charge lourde.

Bien que ce ne soit pas une réponse complète, nous espérons qu'elle vous orientera dans une direction utile.

— Michael Hampton
source

J'ai vu certains de ces messages, mais je n'ai jamais pu trouver le message exact que je recevais. S'est avéré être un mauvais câble SFF-8087-> SATA. Merci pour l'aide!

— Chris Smith

0

Cela signifie que vous avez une erreur sur le disque, il s'agit d'un disque SATA dans un contrôleur SAS de LSI et en raison de l'erreur, toutes les demandes en suspens ont été abandonnées.

Dans la plupart des cas, vous avez une erreur moyenne sur le disque qui est le déclencheur de cette erreur. Cette erreur en elle-même ne signifie pas une erreur moyenne et vous devrez vérifier les journaux pour d'autres indices pour trouver quelle est la source de la défaillance du disque d'origine.

Version légèrement plus élaborée sur: http://blog.disksurvey.org/blog/2014/03/27/sata-handling-of-medium-errors-log-info-0x0x31080000/

— Baruch Even
source

Message intéressant, merci pour le partage! SATA est un protocole de merde mais les disques sont bon marché et font ce dont j'ai besoin. Le message n'a pas réapparu depuis que j'ai remplacé le câble défectueux.

— Chris Smith

1

Plus de décodage de LSI Loginfo peut être trouvé via un utilitaire que j'ai créé pour le déchiffrer: blog.disksurvey.org/blog/2014/08/10/decoding-lsi-loginfo-codes

— Baruch Even