Après un démarrage à froid d'un serveur Debian 6.0.8 (HP ProLiant), ntpd
fait des ravages avec l'heure du système: décalage et gigue par rapport aux serveurs de temps de référence habituels et fiables qui croissent sans limite. (Notez qu'un serveur jumeau identique n'a eu aucun problème du tout.) Après de nombreuses tentatives infructueuses pour résoudre le problème sur le ntpd
côté, j'ai décidé d'essayer un redémarrage, et tout s'est bien passé.
Afin d'étudier le problème, j'ai trouvé cette anomalie, ce qui pourrait expliquer mes problèmes d'horloge:
root@n1:~# zgrep Detected /var/log/dmesg*
/var/log/dmesg:[ 0.004000] Detected 2400.110 MHz processor.
/var/log/dmesg.0:[ 0.004000] Detected 2383.579 MHz processor.
/var/log/dmesg.1.gz:[ 0.004000] Detected 2400.036 MHz processor.
/var/log/dmesg.2.gz:[ 0.004000] Detected 2400.298 MHz processor.
/var/log/dmesg.3.gz:[ 0.004000] Detected 2400.165 MHz processor.
/var/log/dmesg.4.gz:[ 0.004000] Detected 2400.410 MHz processor.
Notez que dans l'avant-dernier démarrage (celui qui pose problème), la fréquence du processeur détectée est une valeur aberrante claire. Sans la valeur aberrante, l'erreur et l'écart-type de la fréquence détectée par rapport à la fréquence nominale est de +0,15 MHz ± 0,25 MHz. Pour le démarrage problématique, j'ai une erreur de -16,4 Mhz, ce qui est environ 100 fois plus important que prévu.
Mes questions:
Une erreur de ce type peut-elle rendre la
ntp
discipline temporelle instable / inutilisable? Est-ce la raison de mes problèmes d'horloge?Ce type de comportement est-il un symptôme de matériel flacky? Le serveur doit-il passer en maintenance matérielle?
Mise à jour
Quelques données utiles:
- le noyau est 2.6.32-5-amd64 (Debian 2.6.32-48squeeze4)
current_clocksource
esttsc
- l'erreur pour
lpj
est (bien sûr) cohérente avec l'erreur sur la fréquence du processeur
Quelques lignes de contexte pour ce qui précède grep
[ 0.000000] hpet clockevent registered
[ 0.000000] Fast TSC calibration using PIT
[ 0.004000] Detected 2400.110 MHz processor.
[ 0.000008] Calibrating delay loop (skipped), value calculated using timer frequency.. 4800.22 BogoMIPS (lpj=9600440)
ntpdc -c loopinfo
ne m'a jamais donné de valeur de dérive de fréquence. Maintenant, après le redémarrage, tout semble être en ordre, avec une valeur de dérive stable ... BTW votre suggestion est correcte, je surveillelog/loopstats
les comportements anormaux.