Cet après-midi, quelqu'un à notre bureau a décidé de débrancher la prise de notre serveur car il faisait rage dehors. Ils ne l'ont pas arrêté, ils ont juste débranché la prise pendant qu'elle fonctionnait.
Le serveur dispose de 4 disques SATA dans une configuration logicielle RAID 10 et LVM s'exécutant au-dessus du RAID. Le serveur exécute CentOS 6.2 Minimal et est un hôte de machine virtuelle utilisant KVM. Au moment où il a été débranché, de nombreuses machines invitées fonctionnaient sur l'ordinateur. Chaque invité possède une ou plusieurs partitions LVM qu'il utilise directement comme disques durs. Les partitions invitées sont EXT3, EXT4 et NTFS. Le système d'exploitation hôte se trouve sur une partition EXT4.
Plus tard, lorsque le courant est revenu, cette personne l'a rebranché et il a redémarré. Puisqu'ils l'ont branché sans attacher un moniteur au préalable, il n'y a aucun moyen de voir ce qui est apparu à l'écran. J'ai essayé de connecter un moniteur maintenant, mais cela ne fonctionnera que si le moniteur est connecté au démarrage. Je l'ai laissé tel quel, jusqu'à ce que je puisse obtenir des conseils, car je ne veux rien foutre (plus loin).
Je peux entrer dans l'hôte via SSH. Je ne l'ai pas encore redémarré au cas où quelque chose dans un journal pourrait être utile.
Ce que je dois faire, c'est vérifier tous les disques et partitions pour l'intégrité des données, si c'est même possible. Je pense que RAID 10 utilise une sorte de cache basé sur la mémoire et je m'inquiète que les disques soient incohérents ou que les fichiers soient corrompus s'il y avait des éléments dans le signal à écrire sur le disque qui n'avaient pas encore été écrits.
[root@othello ~]# cat /proc/mdstat
Personalities : [raid10] [raid1]
md2 : active raid1 sdc1[2] sda1[0] sdd1[3] sdb1[1]
102388 blocks super 1.0 [4/4] [UUUU]
md0 : active raid10 sda3[0] sdc3[2] sdd3[3] sdb3[1]
1952289792 blocks super 1.1 512K chunks 2 near-copies [4/4] [UUUU]
bitmap: 0/15 pages [0KB], 65536KB chunk
md1 : active raid10 sdc2[2] sda2[0] sdd2[3] sdb2[1]
1022976 blocks super 1.1 512K chunks 2 near-copies [4/4] [UUUU]
unused devices: <none>
Cela me dérange aussi d'appeler mes tableaux "quasi-copies". Est-ce normal?
Quel type de vérification de disque dois-je exécuter pour m'assurer que tout va bien avec les lecteurs et les données? Y a-t-il d'autres choses que je devrais vérifier?
MISE À JOUR
Sortie de mdadm --detail
[root@othello ~]# mdadm --detail /dev/md0
/dev/md0:
Version : 1.1
Creation Time : Sat Feb 25 09:26:20 2012
Raid Level : raid10
Array Size : 1952289792 (1861.85 GiB 1999.14 GB)
Used Dev Size : 976144896 (930.92 GiB 999.57 GB)
Raid Devices : 4
Total Devices : 4
Persistence : Superblock is persistent
Intent Bitmap : Internal
Update Time : Sun Mar 11 12:59:30 2012
State : active
Active Devices : 4
Working Devices : 4
Failed Devices : 0
Spare Devices : 0
Layout : near=2
Chunk Size : 512K
Name : othello.myserver.com:0 (local to host othello.myserver.com)
UUID : 58ba40ab:12516733:e3779362:68200fdd
Events : 2208
Number Major Minor RaidDevice State
0 8 3 0 active sync /dev/sda3
1 8 19 1 active sync /dev/sdb3
2 8 35 2 active sync /dev/sdc3
3 8 51 3 active sync /dev/sdd3