Erreur en cascade dans Apache Storm

En parcourant la présentation et le matériel de Summingbird par Twitter, l'une des raisons mentionnées pour utiliser les clusters Storm et Hadoop ensemble dans Summingbird est que le traitement via Storm entraîne une cascade d'erreurs. Afin d'éviter cette cascade d'erreurs et leur accumulation, le cluster Hadoop est utilisé pour traiter par lots les données et supprimer les résultats Storm après le traitement des mêmes données par Hadoop.

Quelles sont les raisons de la génération de cette accumulation d'erreur? et pourquoi n'est-il pas présent dans Hadoop? Comme je n'ai pas travaillé avec Storm, je n'en connais pas les raisons. Est-ce parce que Storm utilise un algorithme approximatif pour traiter les données afin de les traiter en temps réel? ou la cause est-elle autre chose?

bigdata apache-hadoop

— mbbce
source

Twitter utilise Storm pour le traitement en temps réel des données. Des problèmes peuvent survenir avec les données en temps réel. Les systèmes pourraient tomber. Les données peuvent être traitées par inadvertance deux fois. Les connexions réseau peuvent être perdues. Beaucoup de choses peuvent se produire dans un système en temps réel.

Ils utilisent hadoop pour traiter de manière fiable les données historiques. Je ne connais pas les détails, mais par exemple, obtenir des informations solides à partir de journaux agrégés est probablement plus fiable que de l'attacher au flux.

S'ils s'appuyaient simplement sur Storm pour tout - Storm aurait des problèmes en raison de la nature de la fourniture d'informations en temps réel à grande échelle. S'ils comptent sur hadoop pour tout, il y a beaucoup de latence. La combinaison des deux avec Summingbird est la prochaine étape logique.

— Steve Kallestad
source