J'essaie de comprendre comment tous les composants "big data" jouent ensemble dans un cas d'utilisation réel, par exemple hadoop, monogodb / nosql, storm, kafka, ... Je sais que c'est une gamme assez large d'outils utilisés pour différents types, mais j'aimerais en savoir plus sur leur interaction dans les applications, par exemple penser à l'apprentissage automatique pour une application, une webapp, une boutique en ligne.
J'ai des vues / session, des données de transaction, etc. et je les stocke; mais si je veux faire des recommandations à la volée, je ne peux pas exécuter de carte lente / réduire les travaux pour cela sur une grande base de données de journaux que j'ai. Où puis-je en savoir plus sur les aspects d'infrastructure? Je pense que je peux utiliser la plupart des outils par eux-mêmes, mais les brancher les uns aux autres semble être un art en soi.
Existe-t-il des exemples / cas d'utilisation publics, etc. disponibles? Je comprends que les pipelines individuels dépendent fortement du cas d'utilisation et de l'utilisateur, mais des exemples me seront probablement très utiles.