Meilleur outil pour surveiller les sauvegardes, etc. et les tendances des statistiques à partir de ces données [fermé]


9

J'ai fait des recherches sur les nagios, les opennms et les zenoss mais je ne suis pas sûr d'avoir trouvé ce que je cherche.

La principale force motrice pour moi en ce moment est de pouvoir surveiller les sauvegardes. Cela inclut mysql, mssql et éventuellement certaines sauvegardes du système de fichiers.

Nous avons un outil qui enveloppe le processus de sauvegarde de ces différents systèmes et recueille des statistiques. Ainsi, des éléments comme:

  • nombre de bases de données sauvegardées
  • taille du fichier de sauvegarde db
  • taille du fichier de sauvegarde db compressé
  • il est temps de faire une sauvegarde
  • temps pour compresser le fichier

Je veux pouvoir A) avoir des notifications si les travaux ne sont pas exécutés selon le calendrier B) être en mesure de définir des seuils sur les statistiques qui déclencheraient des notifications C) Je veux pouvoir suivre et représenter graphiquement les statistiques

Je prévois d'envoyer ces informations à l'application de surveillance via un HTTP POST. Ou, l'application de surveillance peut également l'extraire d'un fichier journal.

Cependant, nous aurons d'autres processus avec d'autres statiques "arbitraires" (du point de vue du système de surveillance) qui voudront surveiller et établir des tendances, donc la flexibilité est très importante.

L'outil ou les outils devraient également être en mesure d'effectuer une surveillance générale et des tendances des interfaces réseau, de la charge du serveur, etc. Une fois la surveillance de sauvegarde en place, nous voudrons également inclure ces éléments.

Merci.

Suivi :

J'ai décidé d'essayer ce qui suit dans l'ordre donné:

  • Zabbix: semblait plus un "guichet unique" que les autres et était facile à installer dans Ubuntu Lucid RC
  • opsview
  • Nagios avec nagvis, pnp4nagios, nagiosgraph
  • cacti avec plugin npc
  • Munin: un peu marqué de la simplicité, mais cela pourrait s'avérer être une bénédiction à long terme

Je reviendrai une fois que j'ai pris une décision, cela peut prendre un certain temps avant que cela ne se produise.

Réponses:


4

Plutôt que d'écrire votre propre solution de surveillance, je vous recommande fortement d'utiliser un outil existant afin que toutes les fonctionnalités de surveillance et d'alerte de base soient déjà implémentées. Si vous choisissez Nagios, vous obtiendrez gratuitement la surveillance de base des ressources du serveur et du réseau, et les plugins suivants devraient vous donner la plupart du reste de ce dont vous avez besoin:

check_file_ages_in_dirs vous dira si les fichiers de sauvegarde existent; voici un article de blog que j'ai écrit avec quelques exemples de base.

check_file peut surveiller la taille et le contenu du fichier (à l'aide d'expressions régulières), vous pouvez donc générer vos statistiques de sauvegarde dans un fichier et les surveiller.

La seule chose que vous n'obtiendrez pas de Nagios est la tendance et la représentation graphique; Je recommande de regarder Munin pour cela, car il est simple à configurer et, comme Nagios, a des piles de plugins contribués.


Pour plus de précision, je n'écrirais pas mon propre outil de surveillance. La question est d'obtenir des recommandations pour les outils de surveillance / tendances qui s'intégreront au cadre de sauvegarde / exécution de script que j'ai construit.
Randy Syring du

4

cela devrait être assez facile à configurer avec zabbix.

la définition de seuils personnalisés (et très puissants) est facile - vous pouvez écrire n'importe quelle expression que vous aimez, donc quelque chose comme "m'avertir si plus de 3 de ces 5 serveurs n'ont pas eu une sauvegarde réussie" est possible. vous pouvez également utiliser 6 niveaux de gravité et escalades différents pour obtenir des notifications et des alertes flexibles.

zabbix a des capacités de stockage et de visualisation de données regroupées - toutes les données sont stockées dans une base de données, et pour représenter graphiquement une métrique unique, vous n'avez besoin d'aucune configuration - vous obtenez juste un graphique pour cela "gratuitement". pour le stockage à long terme et les tendances, des moyennes sur une heure sont calculées.

quant à la saisie de vos données sur les sauvegardes dans zabbix, les possibilités sont multiples. vous pouvez le lire à partir de fichiers, vous pouvez lancer des commandes personnalisées, vous pouvez le pousser depuis la machine surveillée à l'aide de l'utilitaire de ligne de commande zabbix_sender ... et il pourrait y avoir quelques autres approches possibles.

l'extension est facile - toute commande personnalisée qui renvoie des données peut être utilisée pour collecter, stocker et visualiser ces données.

bien sûr, une surveillance générale des systèmes d'exploitation, des applications, des périphériques snmp et ipmi, etc. est possible.


1

exécution

les sauvegardes sont orchestrées par backupninja . je l'utilise juste comme un wrapper pour mes scripts bash - pour avoir un seul journal de sauvegarde. chaque script commence par

 function handle {
         echo Error
         error problem occured
 }
 set -e
 trap handle ERR

donc j'obtiens une erreur dans les journaux chaque fois que l'une des commandes [par exemple mysqldump ou rsync] échoue.

toutes les sauvegardes se retrouvent dans le référentiel rdiff donc j'ai n jours d'incréments.

toutes les sauvegardes sont transmises à l'aide de rsync au serveur de stockage central.

sur le serveur de stockage, toutes les sauvegardes sont vérifiées quotidiennement et après une vérification réussie des données sur le disque local, elles sont copiées sur un lecteur USB externe.

vérification

backupninja.log sur tous les serveurs est surveillé par nagios. je vérifie s'ils ne contiennent que des messages DEBUG et INFO. toute autre chose déclenche l'alerte.

chaque sauvegarde «touche» un fichier de test, dont la présence et la fraîcheur sont surveillées sur le serveur de référentiel de sauvegarde central avec nagios.

en outre, les vidages sql plus critiques sont vérifiés pour leur taille [pas seulement la fraîcheur] et leur exhaustivité [par exemple, à la fin des vidages mysql, je m'attends à un nouvel horodatage dans

- Dump terminé le 2010-04-22 23:21:02

toutes les archives rdiff sont vérifiées quotidiennement avant la synchronisation des données sur la clé USB, puis à nouveau après leur synchronisation. donc même si le transfert nocturne est interrompu, j'aurai un référentiel cohérent uniquement sur le disque USB. le résultat de la vérification est enregistré dans un fichier dont le contenu et la fraîcheur sont vérifiés par les nagios.

les disques usb tournent chaque semaine et sont stockés hors ligne, au cas où. cela peut être exagéré pour de plus grandes quantités de données, mais fonctionne bien pour ~ 300 Go de fichiers / vidages à évolution lente.

les tendances

J'utilise un plugin Munin personnalisé simple pour tracer la taille des diff / données pour chaque référentiel rdiff.

le temps qu'il faut pour exécuter peut être vérifié dans les journaux de backupninja mais pour l'instant je ne m'en soucie pas.


Merci d'avoir répondu. J'ai déjà un cadre qui gère les sauvegardes en cours d'exécution (et d'autres tâches), qui collecte des statistiques, donc backupninja serait exagéré. Nagios semble être un consensus puis munin ou cactus à tendance.
Randy Syring du

1

nagios peut faire des tendances, mais vous devez générer des perfdata ( http://nagios.sourceforge.net/docs/1_0/perfdata.html ) dans votre plugin. Si vous utilisez un pnp4nagios http://docs.pnp4nagios.org/pnp-0.4/start, tout sera représenté graphiquement pour vous.

J'ai trouvé que l'utilisation de opsview http://www.opsview.org/ est bien plus facile que de configurer nagios et pnp4nagios. Surtout si vous êtes le seul administrateur averti de Linux au travail. Opsview est nagios avec un excellent webui qui permet presque toutes les actions du navigateur web. Parce qu'il s'agit de nagios, vous pouvez utiliser tous les plugins nagios que vous utilisiez dans le passé. Excellent outil.


Merci pour le commentaire, je pense que j'avais exclu opsview pour une raison quelconque, mais sur la base de votre recommandation, je pourrais finir par l'essayer avant de sauter dans les nagios proprement dits.
Randy Syring

0

Nagios pour les alertes et Cacti pour le graphisme ainsi que certains scripts shell ou perl feront exactement ce que vous voulez. En les combinant ensemble, vous pourriez faire à peu près n'importe quoi, selon la quantité d'efforts que vous êtes prêt à y consacrer.


Pensez-vous qu'il serait préférable de "pousser" les statistiques vers les nagios via HTTP ou de les laisser extraire les statistiques des fichiers journaux?
Randy Syring du

0

Je recommande OpenNMS . Le package est entièrement open source, activement pris en charge et régulièrement amélioré. Pour référence, j'ai trouvé sur leurs informations de configuration wiki pour surveiller Symantec Backup Exec .

De leur site Web ..

OpenNMS est la première plate-forme de gestion de réseau d'entreprise au monde développée sous le modèle open source. Il se compose d'un projet open source soutenu par la communauté ainsi que d'une organisation de services commerciaux, de formation et de soutien.

Divulgation: Je n'ai aucun intérêt commercial ici, mais le propriétaire de The OpenNMS Group , l'organisation de services commerciaux, de formation et de soutien mentionnée ci-dessus est un de mes amis.


En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.