Comment vérifier l'hôte VM du serveur CentOS 6 après une panne de courant?

9

Cet après-midi, quelqu'un à notre bureau a décidé de débrancher la prise de notre serveur car il faisait rage dehors. Ils ne l'ont pas arrêté, ils ont juste débranché la prise pendant qu'elle fonctionnait.

Le serveur dispose de 4 disques SATA dans une configuration logicielle RAID 10 et LVM s'exécutant au-dessus du RAID. Le serveur exécute CentOS 6.2 Minimal et est un hôte de machine virtuelle utilisant KVM. Au moment où il a été débranché, de nombreuses machines invitées fonctionnaient sur l'ordinateur. Chaque invité possède une ou plusieurs partitions LVM qu'il utilise directement comme disques durs. Les partitions invitées sont EXT3, EXT4 et NTFS. Le système d'exploitation hôte se trouve sur une partition EXT4.

Plus tard, lorsque le courant est revenu, cette personne l'a rebranché et il a redémarré. Puisqu'ils l'ont branché sans attacher un moniteur au préalable, il n'y a aucun moyen de voir ce qui est apparu à l'écran. J'ai essayé de connecter un moniteur maintenant, mais cela ne fonctionnera que si le moniteur est connecté au démarrage. Je l'ai laissé tel quel, jusqu'à ce que je puisse obtenir des conseils, car je ne veux rien foutre (plus loin).

Je peux entrer dans l'hôte via SSH. Je ne l'ai pas encore redémarré au cas où quelque chose dans un journal pourrait être utile.

Ce que je dois faire, c'est vérifier tous les disques et partitions pour l'intégrité des données, si c'est même possible. Je pense que RAID 10 utilise une sorte de cache basé sur la mémoire et je m'inquiète que les disques soient incohérents ou que les fichiers soient corrompus s'il y avait des éléments dans le signal à écrire sur le disque qui n'avaient pas encore été écrits.

[root@othello ~]# cat /proc/mdstat
Personalities : [raid10] [raid1] 
md2 : active raid1 sdc1[2] sda1[0] sdd1[3] sdb1[1]
      102388 blocks super 1.0 [4/4] [UUUU]

md0 : active raid10 sda3[0] sdc3[2] sdd3[3] sdb3[1]
      1952289792 blocks super 1.1 512K chunks 2 near-copies [4/4] [UUUU]
      bitmap: 0/15 pages [0KB], 65536KB chunk

md1 : active raid10 sdc2[2] sda2[0] sdd2[3] sdb2[1]
      1022976 blocks super 1.1 512K chunks 2 near-copies [4/4] [UUUU]

unused devices: <none>

Cela me dérange aussi d'appeler mes tableaux "quasi-copies". Est-ce normal?

Quel type de vérification de disque dois-je exécuter pour m'assurer que tout va bien avec les lecteurs et les données? Y a-t-il d'autres choses que je devrais vérifier?

MISE À JOUR

Sortie de mdadm --detail

[root@othello ~]# mdadm --detail /dev/md0
/dev/md0:
        Version : 1.1
  Creation Time : Sat Feb 25 09:26:20 2012
     Raid Level : raid10
     Array Size : 1952289792 (1861.85 GiB 1999.14 GB)
  Used Dev Size : 976144896 (930.92 GiB 999.57 GB)
   Raid Devices : 4
  Total Devices : 4
    Persistence : Superblock is persistent

  Intent Bitmap : Internal

    Update Time : Sun Mar 11 12:59:30 2012
          State : active 
 Active Devices : 4
Working Devices : 4
 Failed Devices : 0
  Spare Devices : 0

         Layout : near=2
     Chunk Size : 512K

           Name : othello.myserver.com:0  (local to host othello.myserver.com)
           UUID : 58ba40ab:12516733:e3779362:68200fdd
         Events : 2208

    Number   Major   Minor   RaidDevice State
       0       8        3        0      active sync   /dev/sda3
       1       8       19        1      active sync   /dev/sdb3
       2       8       35        2      active sync   /dev/sdc3
       3       8       51        3      active sync   /dev/sdd3

— pseudo
source

3

Le RAID est très bien, tous les UUUU signifient que tous les disques de la matrice sont actifs. Je ne m'en inquiéterais même pas pour l'instant.

En ce qui concerne les machines virtuelles, si vous souhaitez exécuter fscks dessus, arrêtez les machines virtuelles et exécutez

fsck.ext3 (ext4, etc) /path/to/lvm (généralement comme / dev / nom-vg / nom-lv)

Si vous utilisez KVM, vous devriez pouvoir utiliser virshpour faire tout ce dont vous avez besoin sur les VM. Voici un lien vers la page de manuel virsh http://linux.die.net/man/1/virsh

Si vous voulez vraiment exécuter des vérifications de disque sur vos baies de raid, vous devrez redémarrer en mode mono-utilisateur ou démarrer à partir d'un cd live afin de pouvoir fsck les périphériques / dev / mdX individuels. Étant donné que le système de fichiers principal est EXT4, je ne me dérangerais pas, c'est beaucoup mieux que EXT3 avec des pannes de courant.

— jemmille
source

+1, va essayer demain.

— Nick

1

Essayez mdadm --detail / dev / md0 (idem pour md1 et md2).

Essayez ensuite les conseils donnés ici: http://linas.org/linux/raid.html

— ode
source

J'ai publié la sortie mdadm --detail /dev/md0ci - dessus. J'ai lu le guide que vous avez lié, mais il ne mentionne pas les systèmes de fichiers EXT4, ni quoi, en particulier, puis-je faire pour vérifier l'intégrité?

— Nick

Le type de système de fichiers ne devrait pas avoir d'importance en termes d'intégrité RAID. Si vous avez une période de maintenance, vous pouvez démonter les systèmes de fichiers concernés et fsckeux. Si vous souhaitez vérifier les périphériques RAID eux-mêmes, vous pouvez faire quelque chose comme echo "check" > /sys/block/md0/md/sync_action. Ou faites écho à "réparation" pour qu'il fasse une sorte de réparation mdadm.

— cjc

J'essaierai cela demain et je ferai rapport.

— Nick