Nous avons un serveur Graphite pour collecter des données via collectd, statsd, JMXTrans ... Depuis quelques jours, nous avons fréquemment des trous dans nos données. En fouillant dans les données que nous avons encore, nous pouvons voir une augmentation de la taille du cache de carbone (de 50K à 4M). Nous ne voyons pas d'augmentation du nombre de métriques collectées (metricsReceived est stable autour de 300K). Nous avons une augmentation du nombre de requêtes de 1000 à 1500 en moyenne.
Étrangement, le cpuUsage diminue légèrement de 100% (nous avons 4 CPU) à 50% lorsque la taille du cache augmente.
Curieusement, nous constatons une augmentation du nombre d'octets lus sur le disque et une diminution du nombre d'octets écrits.
Nous avons la configuration de carbone principalement avec des valeurs par défaut:
- MAX_CACHE_SIZE = inf
- MAX_UPDATES_PER_SECOND = 5000
- MAX_CREATES_PER_MINUTE = 2000
De toute évidence, quelque chose a changé dans notre système, mais nous ne comprenons pas quoi, ni comment trouver cette cause ...
De l'aide ?