Recherche d'exemples de piles / workflows / pipelines d'infrastructure

14

J'essaie de comprendre comment tous les composants "big data" jouent ensemble dans un cas d'utilisation réel, par exemple hadoop, monogodb / nosql, storm, kafka, ... Je sais que c'est une gamme assez large d'outils utilisés pour différents types, mais j'aimerais en savoir plus sur leur interaction dans les applications, par exemple penser à l'apprentissage automatique pour une application, une webapp, une boutique en ligne.

J'ai des vues / session, des données de transaction, etc. et je les stocke; mais si je veux faire des recommandations à la volée, je ne peux pas exécuter de carte lente / réduire les travaux pour cela sur une grande base de données de journaux que j'ai. Où puis-je en savoir plus sur les aspects d'infrastructure? Je pense que je peux utiliser la plupart des outils par eux-mêmes, mais les brancher les uns aux autres semble être un art en soi.

Existe-t-il des exemples / cas d'utilisation publics, etc. disponibles? Je comprends que les pipelines individuels dépendent fortement du cas d'utilisation et de l'utilisateur, mais des exemples me seront probablement très utiles.

— chrshmmmr
source

Avez-vous fait des recherches à ce sujet? Il existe de nombreuses vidéos YouTube et présentations de partage de diapositives décrivant différentes architectures

— Stanpol

1

Hé Stanpol, merci pour votre réponse - j'ai fait quelques recherches initiales et je n'ai pas vraiment trouvé autre chose que des trucs AWS et cloudera - peut-être que si vous pouvez me donner des termes de recherche prometteurs, je serai heureux de les reprendre à partir de là.

— chrshmmmr

14

Afin de comprendre la variété des façons dont le machine learning peut être intégré dans des applications de production, je pense qu'il est utile d'examiner les projets open source et les articles / blogs des entreprises décrivant leur infrastructure.

Le thème commun de ces systèmes est la séparation de la formation du modèle de l'application du modèle. Dans les systèmes de production, l'application du modèle doit être rapide, de l'ordre de 100s de ms, mais il y a plus de liberté dans la fréquence de mise à jour des paramètres du modèle (ou équivalent).

Les gens utilisent une large gamme de solutions pour la formation et le déploiement de modèles:

Créez un modèle, puis exportez-le et déployez-le avec PMML
- AirBnB décrit leur formation sur les modèles en R / Python et le déploiement de modèles PMML via OpenScoring.
- Pattern est un projet lié à la cascade qui peut consommer du PMML et déployer des modèles prédictifs.
Créez un modèle dans MapReduce et accédez aux valeurs dans un système personnalisé
- Conjecture est un projet open source d'Etsy qui permet la formation de modèles avec Scalding , un wrapper scala plus facile à utiliser autour de MapReduce et un déploiement via Php.
- Kiji est un projet open source de WibiData qui permet la notation des modèles en temps réel (application) ainsi que la fonctionnalité pour les données utilisateur persistantes et les modèles de formation sur ces données via Scalding.
Utilisez un système en ligne qui permet de mettre à jour en continu les paramètres du modèle.
- Google a publié un excellent article sur un filtrage collaboratif en ligne qu'ils ont mis en œuvre pour traiter les recommandations de Google Actualités.

— j_houg
source

7

L'une des explications les plus détaillées et les plus claires de la mise en place d'un pipeline d'analyse complexe provient des gens de Twitch .
Ils donnent des motivations détaillées de chacun des choix d'architecture pour la collecte, le transport, la coordination, le traitement, le stockage et l'interrogation de leurs données.
Une lecture convaincante! Trouvez-le ici et ici .

— tchakravarty
source

C'est assez génial, exactement ce que je cherchais! Merci beaucoup :)

— chrshmmmr

@chrshmmmr Vous êtes les bienvenus. N'oubliez pas de voter / marquer comme accepté si cela a aidé!

— tchakravarty

3

Ces liens semblent en effet très utiles, mais là encore, ce sont des liens, et je suppose que nous devons nous efforcer de maintenir les réponses indépendamment de la stabilité des sources extérieures. Ainsi, ce serait bien si vous pouviez prendre environ deux ou trois minutes pour ajouter, par exemple, le diagramme de ce lien , en le publiant avec une description rapide. Quelque chose dans les lignes de: "Par exemple, c'est le flux de travail d'un ... système. <img>. De plus amples informations peuvent être trouvées dans <link>."

— Rubens

1

@Rubens Je proposerai un montage dans un instant. fgnu: Je le ferai, j'ai juste besoin d'un peu plus de réputation pour réellement voter, mais je vais certainement honorer votre contribution :)

— chrshmmmr

@Rubens Ce ne serait rien de plus que de reproduire les informations sur le lien. Je le ferais s'il y avait quelque chose qui, selon moi, ajouterait à l'explication déjà donnée.

— tchakravarty

3

Airbnb et Etsy ont récemment publié des informations détaillées sur leurs workflows.

— Trey
source

1

Le chapitre 1 de Practical Data Science with R ( http://www.manning.com/zumel/ ) présente une grande ventilation du processus de science des données, y compris les rôles des équipes et leur relation avec des tâches spécifiques. Le livre suit les modèles présentés dans le chapitre en faisant référence aux étapes / personnels par lesquels telle ou telle tâche particulière serait effectuée.

— d8aninja
source