Dernièrement, j'ai dû faire face à des temps d'arrêt sur certains des sites Drupal que j'ai déployés. Je voudrais aborder le problème de manière proactive, plutôt que de réagir à ces temps d'arrêt en redémarrant les services ou le serveur lui-même. J'ai lu sur les outils de surveillance comme nagios, munin, cacti, etc. pour surveiller la santé de votre serveur / infrastructure, mais je n'en ai pas vraiment essayé un en production. Je traite avec Drupal presque 99% des fois, et je voudrais trouver des suggestions pour la surveillance au niveau du serveur et la surveillance au niveau Drupal (code d'application).
Fondamentalement, je voudrais être averti lorsque la charge du serveur est élevée, pouvant être dirigée vers le coupable (ou la victime), afin que je puisse prendre des décisions éclairées. Je voudrais également savoir ce que les gens utilisent pour la surveillance de niveau Drupal (comme l'emailing) quand il y a une erreur / un avertissement PHP. (Que se passe-t-il lorsque le serveur de messagerie lui-même est en panne?)