J'ai quelques machines virtuelles sur Windows Azure qui exécutent notre site Web de commerce électronique, et dernièrement, nous avons commencé à utiliser Telegraf, InfluxDb et Grafana pour garder un œil sur ces machines. Après quelques semaines de collecte de données, j'ai remarqué un motif étrange lié à la métrique de mémoire disponible :
Tous les jours presque toujours à la même période de la journée, j'ai remarqué qu'il y avait une quantité abrupte de mémoire libérée qui, en raison de mes compétences DevOp très très très limitées, je ne peux pas comprendre ce qui est à l'origine de cela.
Voici un graphique qui montre ce modèle:
Ma question est: qu'est-ce qui pourrait conduire à quelque chose comme ça? Je me sens tenté de soupçonner qu'une fuite de mémoire est à blâmer, mais ... La mémoire libre ne descend jamais en dessous de 70% et ne se produit que dans deux des machines virtuelles avec le plus de trafic!
Dois-je m'inquiéter quand je vois quelque chose comme ça?
PS: J'ai commencé à rassembler des métriques pour les octets privés et virtuels pour chacun des services Windows que nous avons en cours d'exécution et pour le processus w3wp ... bien que j'ai lu que ces métriques ne sont pas très fiables pour savoir si vous avez une fuite de mémoire, mais au moins je vais essayer d'obtenir une sorte de tendance et voir si elle est en corrélation avec le schéma ci-dessus.