L'un des principaux exemples utilisés pour démontrer la puissance de MapReduce est le benchmark Terasort . J'ai du mal à comprendre les bases de l'algorithme de tri utilisé dans l'environnement MapReduce.
Pour moi, le tri consiste simplement à déterminer la position relative d'un élément par rapport à tous les autres éléments. Le tri consiste donc à comparer «tout» avec «tout». Votre algorithme de tri moyen (rapide, bulle, ...) le fait simplement de manière intelligente.
Dans mon esprit, diviser l'ensemble de données en plusieurs éléments signifie que vous pouvez trier un seul élément, puis vous devez toujours intégrer ces éléments dans l'ensemble de données `` complet '' entièrement trié. Compte tenu de l'ensemble de données de téraoctets distribué sur des milliers de systèmes, je m'attends à ce que ce soit une tâche énorme.
Alors, comment est-ce vraiment fait? Comment fonctionne cet algorithme de tri MapReduce?
Merci de m'aider à comprendre.