Dans de nombreuses situations réelles où vous appliquez MapReduce, les algorithmes finaux finissent par être plusieurs étapes MapReduce.
c'est-à-dire Map1, Reduce1, Map2, Reduce2, et ainsi de suite.
Vous avez donc la sortie de la dernière réduction qui est nécessaire comme entrée pour la carte suivante.
Les données intermédiaires sont quelque chose que vous ne souhaitez pas (en général) conserver une fois le pipeline terminé avec succès. De plus, parce que ces données intermédiaires sont en général une structure de données (comme une «carte» ou un «ensemble»), vous ne voulez pas mettre trop d'efforts dans l'écriture et la lecture de ces paires clé-valeur.
Quelle est la manière recommandée de le faire dans Hadoop?
Existe-t-il un exemple (simple) qui montre comment gérer correctement ces données intermédiaires, y compris le nettoyage par la suite?