Il est difficile de donner des réponses spécifiques, car 90% de ce travail est une expérience qui vous apprend où chercher quel type de problème, et les 90% restants savent où chercher sur Google pour obtenir des conseils par où commencer.
J'essaie généralement les trucs en papier comme faire en sorte que le client démontre le problème (principalement pour exclure les problèmes de doigts et tous les problèmes que le client peut avoir décrivant son problème), puis j'essaie de reproduire le problème sur un autre ordinateur. Cela vous donne souvent un aperçu de l'endroit où chercher.
N'oubliez pas le problème correctif d'un redémarrage, en particulier pour les systèmes Windows, même aujourd'hui. Auparavant, c'était comme ça que je demandais aux gens "Avez-vous redémarré? Eh bien essayez-le et faites-moi savoir si le problème persiste" - cela a résolu un très grand pourcentage des problèmes qui m'ont été posées.
Il y a souvent aussi des problèmes de résolution DNS et de connectivité de base (ACL sur les routeurs, lacunes dans le réseau, pings / traceroutes / mtrs vers des sites distants, etc.).
Pour les services sur lesquels vous avez un contrôle direct, l'exécution de nagios ou quelque chose pour vous assurer que le service est réellement en cours d'exécution peut souvent vous inciter à résoudre les problèmes avant que les clients ne vous en parlent. Vous voulez probablement également exécuter la collecte de statistiques, soit directement via munin ou quelque chose, ou via SNMP vers quelque chose comme Cacti.
J'essaie généralement de faire fonctionner Cacti sur au moins tous mes commutateurs principaux et pare-feu; dans la mesure du possible, je lance Cacti contre tout ce que je peux. Dans ces cas, je recherche généralement des choses comme le nombre d'erreurs de port ou le trafic excessif. Les graphiques de pare-feu de certains appareils peuvent vous montrer l'utilisation du processeur et les sessions simultanées; vous apprendrez à quels seuils votre pare-feu commence à avoir des problèmes.
Votre pare-feu peut être en mesure de se connecter à un périphérique syslog; si c'est le cas, enregistrez tout ce que vous pouvez et regardez-les pour obtenir des conseils. Ce sera plus facile si vous exécutez quelque chose comme syslog-ng ou rsyslog ou splunk qui vous permet de diviser quelque peu vos journaux plutôt que de traiter avec un seul fichier monolithique.
J'essaie également d'exécuter nfsen contre au moins l'intérieur de mon pare-feu et la liaison montante vers le fournisseur Internet lorsque cela est possible. Cela vous permet de remonter le temps pour regarder les sessions et voir qui faisait quoi; cela peut parfois attraper des comportements intéressants.