Cela fait environ deux ans que nous exploitons quelques sites Web sur l'infrastructure AWS d'Amazon. Depuis environ deux jours, le serveur Web a commencé à tomber en panne une ou deux fois par jour avec la seule erreur que je puisse trouver:
HTTP/1.1 503 Service Unavailable: Back-end server is at capacity
CloudWatch ne déclenche aucune alarme (CPU / disque IO / DB Conn). J'ai essayé d'aller sur le site via l'IP élastique pour sauter l'ELB et j'ai obtenu ceci:
HTTP request sent, awaiting response... Read error (Connection reset by peer) in headers. Retrying.
Je ne vois rien d’extraordinaire dans les journaux d’Apache et je vérifie qu’ils étaient correctement pivotés. Je n'ai aucun problème à accéder à la machine lorsqu'elle est "arrêtée" via SSH et en regardant la liste des processus, 151 processus apache2 me paraissent normaux. Redémarrer Apache résout temporairement le problème. Cette machine fonctionne comme un serveur Web derrière un ELB. Toutes les suggestions seraient grandement appréciées.
Utilisation moyenne du processeur: 7.45%, Minimum: 0.00%, Maximum: 25.82%
Utilisation de la mémoire Moyenne: 11,04%, Minimum: 8,76%, Maximum: 13,84%
Moyenne d'utilisation de l'échange: N / A, Minimum: N / A, Maximum: N / A
Utilisation de l'espace disque pour / dev / xvda1 monté sur / Moyenne: 62,18%, Minimum: 53,39%, Maximum: 65,49%
Permettez-moi de préciser. Je pense que le problème concerne l'instance individuelle EC2 et non l'ELB. Je ne voulais tout simplement pas l'exclure, même si je ne pouvais pas atteindre l'élasticité IP. Je soupçonne que ELB ne fait que renvoyer les résultats de la frappe de l'instance EC2 réelle.
Mise à jour: 2014-08-26 J'aurais dû mettre à jour cette information plus tôt, mais la "solution" consistait à prendre un instantané de la "mauvaise" instance et à démarrer l'AMI résultante. Il n'a pas diminué depuis. J'ai consulté le bilan de santé alors que je rencontrais encore des problèmes et je pouvais accéder à la page du bilan de santé ( curl http://localhost/page.html
), même lorsque le problème de la capacité de l'équilibreur de charge me posait problème. Je ne suis pas convaincu qu'il s'agisse d'un problème de santé, mais comme personne, y compris Amazon, ne peut fournir une meilleure réponse, je le marque comme la réponse. Merci.
Mise à jour: 2015-05-06 Je pensais revenir ici et dire qu'une partie du problème que je crois fermement maintenant concerne les paramètres de bilan de santé. Je ne veux pas exclure qu'ils soient un problème avec l'AMI, car il s'est nettement amélioré après le lancement de l'AMI de remplacement, mais j'ai découvert que nos contrôles de santé étaient différents pour chaque équilibreur de charge et que celui qui rencontrait le plus de problèmes avait un seuil très agressif malsain et un délai de réponse. Notre trafic a tendance à augmenter de façon imprévisible et je pense qu'entre les paramètres de bilan de santé agressifs et les pics de trafic, c'était une tempête parfaite.