Plus j'y regarde, plus j'ai tendance à penser qu'il y a un problème avec la collecte de données.
Tout d'abord, il se passe quelque chose de vraiment bizarre avec votre TPS. Alors que le schéma global semble normal, il y a une coupure très nette se produisant vers 21 h, puis de nouveau vers 7 h. Un graphique normal sera beaucoup plus fluide pendant la transition vers les heures creuses.
Cela suggère qu'il y a un changement dans le profil, et vous avez peut-être 2 types de clients distincts:
- Celui qui fonctionne uniquement entre 7 h (ish) et 21 h (ish), à des volumes élevés, et
- un autre qui fonctionne probablement 24 heures sur 24, à des volumes inférieurs.
Le deuxième indice est vers 18h00. La plupart du temps avant et après, nous avons le haut profil de volume - élevé TPS et une faible latence. Mais vers 18h00, il y a une chute soudaine de 800-1000 tr / min à moins de 400 tr / min. Qu'est-ce qui pourrait éventuellement causer ça?
Le troisième indice est la réduction des temps de réponse du 5e centile. En fait, je préfère regarder les temps de réponse minimum (mais le 5e centile est peut-être meilleur) pour deux raisons: il me dit le temps de service (c'est-à-dire le temps de réponse moins la mise en file d'attente), et les temps de réponse ont tendance à suivre une distribution de Weibull, ce qui signifie que le mode (ou la valeur la plus courante) est juste au-dessus du minimum.
Donc, la descente dans le 5e centile me dit qu'il y a une interruption soudaine de la série, et le temps de service a en fait chuté même si la variance et les temps de réponse moyens ont considérablement augmenté.
Prochaines étapes
À ce stade, je plongerais profondément dans les journaux pour découvrir ce qui est différent à propos des échantillons à faible volume de 18h00 par rapport aux échantillons à volume élevé avant et après.
Je chercherais:
- différences de localisation géographique (dans le cas où la latence affecte le $ request_time)
- différences d'URL (ne devrait pas en être)
- différences dans la méthode HTTP (POST / GET) (ne devrait pas en être)
- demandes répétées de la même IP
- et toutes autres différences ...
BTW, "l'événement" de 18h00 est une preuve suffisante pour moi que cela n'a rien à voir avec la congestion / l'activité du centre de données. Pour que cela soit vrai, la congestion devrait entraîner une baisse du TPS, ce qui est possible à 18h00 mais extrêmement peu susceptible de provoquer une baisse soutenue et incurvée du TPS pendant 10 heures entre 21h00 et 7h00.