Idéalement, avec une installation aussi simple que possible et sans nécessiter de redémarrage des serveurs. Surtout DL380 G5's
si ça aide.
Idéalement, avec une installation aussi simple que possible et sans nécessiter de redémarrage des serveurs. Surtout DL380 G5's
si ça aide.
Réponses:
Cela dépend légèrement des systèmes d'exploitation que vous exécutez sur les serveurs, mais en général, il est possible d'obtenir des alertes des serveurs HP ProLiant et des contrôleurs RAID Smart Array.
La liste complète des pilotes et du support logiciel pour vos systèmes DL380 G5 est répertoriée ici .
SNMP et une solution de surveillance sont la meilleure approche ... Mais vous pouvez augmenter cela avec certains des outils HP. HP propose HP Systems Insight Manager , qui peut être téléchargé et est également fourni avec les serveurs. Ceci est idéal pour les collections de serveurs. Si vous recherchez des alertes ponctuelles sans créer une infrastructure de gestion ou de surveillance, vous pouvez simplement installer les HP Management Agents (aka ProLiant Support Pack ).
Pour les systèmes Linux autonomes, les agents enverront des interruptions par e-mail. Je vais généralement configurer le pack de support avec des valeurs par défaut ou un ensemble personnalisé , puis modifier /opt/hp/hp-snmp-agents/cma.conf
et modifier la trapemail
ligne pour pointer vers l'adresse du destinataire:
########################################################################
# trapemail is used for configuring email command(s) which will be
# executed whenever a SNMP trap is generated.
# Multiple trapemail lines are allowed.
# Note: any command that reads standard input can be used. For example:
# trapemail /usr/bin/logger
# will log trap messages into system log (/var/log/messages).
########################################################################
trapemail /bin/mail -s 'HP Insight Management Agents Trap Alarm' systems@1234.net
Si vous utilisez Linux et que vous ne souhaitez pas installer la suite de gestion HP complète, vous pouvez développer un script autour de l' utilitaire cciss_vol_status pour interroger l'état du contrôleur / disque. Voir également: Installation d'agents HP sur OpenFiler
ProLiant DL360 G7
serveurs et HP SIM configurés pour la surveillance.
Découvrez HP Insight Manager
https://www.hpe.com/us/en/product-catalog/detail/pip.489496.html#
Je crois que cela devrait fonctionner avec vos serveurs.
J'ai utilisé le programme léger mentionné par @ewwite dans sa réponse: cciss_vol_status
Si vous suivez les instructions d'installation qui l'accompagnent, le script est placé dans /usr/local/bin/cciss_vol_status
.
Voici un script wrapper que j'utilise pour grep la sortie de cciss_vol_status et envoyer un e-mail si un tableau a le statut FAILED.
#!/bin/bash
#
# Check status of RAID volumes on HP Smart Array controllers. Send an email
# alert if any volumes have a FAILED status.
#
status=`/usr/local/bin/cciss_vol_status /dev/sd*`
# email lock file
lockfile=/tmp/raid.check.hp.smartarray.lock
# how often to send an email (minutes)
_notification_freq=59
_host=`hostname`
# To: email
_toemail=root
# create email lock file
[ ! -f ${lockfile} ] && /bin/touch ${lockfile}
if echo $status | grep -q FAILED
then
# make sure we haven't sent a notification in the last X minutes
if test `find ${lockfile} -mmin +${_notification_freq}`
then
echo -e "${status}" | /bin/mail -s "System Alert! RAID failure on ${_host}" ${_toemail}
# update lock file mod time
/bin/touch ${lockfile}
fi
fi
Appelez le script ci-dessus dans cron. Je lance le contrôle toutes les deux minutes:
*/2 * * * * /usr/local/bin/raid.check.hp.smartarray.sh
Nous utilisons HP System Insight Manager pour vérifier si nos HP sont opérationnels, mais rien de plus. J'ai trouvé que l'agent Linux était excessif pour nous, car nous avons d'autres solutions de surveillance en place, donc ce script ci-dessus remplit bien son objectif spécifique.
MISE À JOUR
Juste un conseil de dépannage au cas où vous rencontriez cela. Ce script s'est avéré utile ce matin lorsque j'ai reçu un e-mail concernant un tableau défaillant avec:
Limite de cache sale atteinte
L'appareil est passé en lecture seule et n'était pas visible dans /proc/partitions
. J'ai redémarré le serveur et j'ai vu ces messages au démarrage:
Disque (s) logique (s) désactivé (s) en raison d'une possible perte de données. Sélectionnez "F1" pour continuer avec les unités logiques désactivées Sélectionnez "F2" pour accepter la perte de données et pour réactiver les unités logiques
J'ai sélectionné F2 et le RAID était bien et monté au démarrage.
installez smartmontools. Vous envoie un message AVANT qu'un disque tombe en panne.