Cela dépend vraiment de ce que vous essayez d'accomplir et de ce que vous entendez par «cluster de calcul distribué». J'ai fait une chose similaire une fois à Uni en utilisant de vieilles machines et du PVM, c'est le "Cluster" dans le sens d'un tas de machines agissant comme un seul ordinateur pour effectuer un traitement parallèle - pensez aux clusters Beowulf. Bien sûr, vous aurez besoin d'un code écrit pour en profiter.
Un bon point de départ serait de déterminer ce que vous cherchez à apprendre avec ce projet. Je recommande de lire l'article wikipedia sur Parallel Computing pour les débutants, puis d'affiner vos besoins en fonction de ce que vous voulez faire.
Un simple système de mise en file d'attente des tâches (comme Gearman ) peut être suffisant pour obtenir rapidement des résultats sympas.
Le problème que j'ai eu quand j'ai créé un cluster de calcul parallèle, c'est que je n'avais rien à faire dessus, il était simplement assis là, mais c'était un projet amusant et j'ai beaucoup appris. Dans tous les cas, vous êtes susceptible d'apprendre un peu et de vous amuser en même temps, indépendamment de ce que vous choisissez de mettre en œuvre.
En ce qui concerne le choix des distributions, j'irais avec ce avec quoi j'étais le plus à l'aise, car vous aurez probablement besoin d'installer des choses à partir de la source. Une fois que vous êtes à l'aise pour tout configurer, vous pouvez chercher une distribution mieux adaptée à vos besoins. Mais toute distribution devrait faire l'affaire.
Quel logiciel pour configurer le cluster? Cela dépend entièrement du type de cluster que vous créez.
À bord vs FS distribué? Encore une fois, cela dépend des exigences de votre cluster. Chaque nœud transmettra-t-il des données entre les autres nœuds? Vont-ils fonctionner comme des esclaves avec un seul maître? fonctionneront-ils de manière totalement indépendante? Ces questions commenceront à éclairer vos choix. Et bien sûr, il y a toujours des compromis.
Quelques autres liens qui pourraient s'avérer intéressants:
http://hadoop.apache.org/
http://www.csm.ornl.gov/oscar/
https://computing.llnl.gov/tutorials/parallel_comp/
http://www.google.com/Top/Computers/Parallel_Computing/Programming/Environments/
http://www.google.com/Top/Computers/Parallel_Computing/Beowulf/