Michael a raison de dire que la communauté est un peu fracturée en ce moment et que la documentation est un peu clairsemée.
En fait, tout est là, c'est tout simplement impossible à comprendre. Ce que vous voulez vraiment, c'est l'ebook "Explication de la configuration du pacemaker" ... ( Lien vers le PDF ). Vous aurez envie de le lire environ une douzaine de fois, puis essayez de l'implémenter, puis lisez-le encore une douzaine de fois afin que vous puissiez le faire.
La meilleure implémentation prise en charge des services de cluster pour Linux à ce stade sera probablement SLES11 de Novell et son extension de haute disponibilité (HAE). Il est JUSTE sorti il y a un mois ou deux, et il est livré avec un joli manuel épais de 200 pages qui décrit comment le configurer et faire fonctionner les choses. Novell a également excellé dans la prise en charge des configurations de stimulateur cardiaque sous diverses formes.
Au-delà de cela, il y a l'implémentation de RHEL5, qui a le même package et une documentation décente, mais je pense que c'est plus cher que SLES. Du moins, c'est pour nous.
J'éviterais Heartbeat en ce moment et j'irais avec Pacekmaker / OpenAIS car ils seront beaucoup mieux soutenus à l'avenir. TOUTEFOIS, l'état actuel de la communauté est tel qu'il y a quelques experts, il y a quelques personnes qui la dirigent en production, et il y a une tonne de gens qui sont complètement ignorants. Rejoignez la liste de diffusion Pacemaker et faites attention à un homme nommé Andrew Beekhof.
Modifier pour fournir les détails demandés:
Pacemaker / OpenAIS utilise une opération de «surveillance» sur une «ressource primitive» (par exemple, nfs-server) pour garder une trace de ce que fait la ressource. Si l'exemple de serveur NFS ne répond pas au reste du cluster pendant X secondes, le cluster exécutera une opération STONITH (Shoot The Other Node In The Head) pour arrêter le nœud principal, en faisant passer le nœud secondaire en actif. Vous décidez dans la configuration quoi faire apparaître par la suite et les actions associées à prendre. Les détails d'implémentation à partir de là dépendent du service que vous essayez de faire basculer, des fenêtres d'exécution pour certaines opérations (telles que la promotion du nœud principal en maître) et le tout est à peu près aussi configurable que possible.