Étude de cas Big Data ou exemple de cas d'utilisation

13

J'ai lu beaucoup de blogs \ article sur la façon dont différents types d'industries utilisent Big Data Analytic. Mais la plupart de ces articles ne mentionnent pas

Quel genre de données ces entreprises ont utilisé. Quelle était la taille des données
Quels types de technologies d'outils ont-ils utilisés pour traiter les données
Quel était le problème auquel ils étaient confrontés et comment la compréhension qu'ils avaient obtenue des données les avait aidés à résoudre le problème.
Comment ils ont choisi l'outil \ technologie pour répondre à leurs besoins.
Quel type de modèle ils ont identifié à partir des données et quel type de modèle qu'ils recherchaient à partir des données.

Je me demande si quelqu'un peut me fournir une réponse à toutes ces questions ou un lien qui répond au moins à certaines des questions. Je cherche un exemple du monde réel.

Ce serait formidable si quelqu'un partage la façon dont l'industrie financière utilise Big Data Analytic.

data-mining bigdata usecase

— Brown_Dynamite
source

14

Les organes de presse ont tendance à utiliser le "Big Data" de façon assez lâche. Les fournisseurs fournissent généralement des études de cas concernant leurs produits spécifiques. Il n'y a pas grand-chose là-bas pour les implémentations open source, mais elles sont mentionnées. Par exemple, Apache ne passera pas beaucoup de temps à construire une étude de cas sur hadoop, mais des fournisseurs comme Cloudera et Hortonworks le feront probablement.

Voici un exemple d'étude de cas de Cloudera dans le secteur financier.

Citant l'étude:

Un important conglomérat mondial de services financiers utilise Cloudera et Datameer pour aider à identifier les activités commerciales frauduleuses. Les équipes du groupe de gestion d'actifs de l'entreprise effectuent une analyse ad hoc des flux quotidiens d'informations sur les prix, les positions et les commandes. Une analyse ad hoc de l'ensemble des données détaillées permet au groupe de détecter les anomalies sur certaines classes d'actifs et d'identifier les comportements suspects. Les utilisateurs dépendaient auparavant uniquement des outils de feuille de calcul de bureau. Désormais, avec Datameer et Cloudera, les utilisateurs disposent d'une plate-forme puissante qui leur permet de parcourir plus de données plus rapidement et d'éviter les pertes potentielles avant de commencer.

.

Une grande banque de détail utilise Cloudera et Datameer pour valider l'exactitude et la qualité des données, comme l'exigent la loi Dodd-Frank et d'autres réglementations. En intégrant les données sur les prêts et les succursales ainsi que les données de gestion de patrimoine, l'initiative de la banque sur la qualité des données est chargée de garantir l'exactitude de chaque enregistrement. Le processus comprend la soumission des données à plus de 50 vérifications de l'intégrité et de la qualité des données. Les résultats de ces contrôles sont suivis au fil du temps pour garantir que les tolérances pour la corruption des données et les domaines de données ne changent pas négativement et que les profils de risque communiqués aux investisseurs et aux organismes de réglementation sont prudents et conformes aux exigences réglementaires. Les résultats sont communiqués via un tableau de bord de la qualité des données au Chief Risk Officer et au Chief Financial Officer,

Je n'ai pas vu d'autres études liées à la finance à Cloudera, mais je n'ai pas cherché très fort. Vous pouvez consulter leur bibliothèque ici.

En outre, Hortonworks a une étude de cas sur les stratégies de trading où ils ont vu une diminution de 20% du temps nécessaire pour développer une stratégie en utilisant K-means, Hadoop et R.

Chaque couleur indique un groupe de stratégies avec une probabilité similaire de profits et pertes

comment le système commercial a été amélioré en utilisant Hadoop (Hortonworks Data Platform) et l'algorithme k-means

Ceux-ci ne répondent pas à toutes vos questions. Je suis presque sûr que ces deux études couvraient la plupart d'entre elles. Je ne vois rien de particulier sur la sélection d'outils. J'imagine que les représentants commerciaux ont beaucoup à voir avec le produit global dans la porte, mais les scientifiques des données eux-mêmes ont tiré parti des outils avec lesquels ils étaient le plus à l'aise. Je n'ai pas beaucoup d'informations sur ce domaine dans l'espace Big Data.

— Steve Kallestad
source

1

Je vous remercie. C'est très utile. Je sais que c'est un espace de bug et il n'y a pas de bonne réponse. Je suis très intéressé de savoir comment on sélectionne les outils et technologies Big Data pour répondre à leurs besoins. Je ne considère pas cela comme la bonne réponse pour l'instant, mais cela mérite certainement beaucoup de votes UP.

— Santé

6

Les services financiers sont un grand utilisateur de Big Data et innovateur aussi. Un exemple est le commerce d'obligations hypothécaires. Pour répondre à vos questions:

Quel genre de données ces entreprises ont utilisé. Quelle était la taille des données?

Longue histoire de chaque hypothèque émise au cours des dernières années et paiements mensuels à leur encontre. (Milliards de lignes)
Longues histoires des antécédents de crédit. (Milliards de lignes)
Indices des prix des logements. (Pas aussi gros)

Quels types de technologies d'outils ont-ils utilisés pour traiter les données?

Cela varie. Certains utilisent des solutions internes basées sur des bases de données comme Netezza ou Teradata. D'autres accèdent aux données via des systèmes fournis par les fournisseurs de données. (Corelogic, Experian, etc.) Certaines banques utilisent des technologies de bases de données en colonnes comme KDB ou 1010data.

Quel était le problème auquel ils étaient confrontés et comment la compréhension qu'ils avaient obtenue des données les avait aidés à résoudre le problème.

La question clé consiste à déterminer quand les obligations hypothécaires (titres adossés à des créances hypothécaires) seront remboursées par anticipation ou par défaut. Ceci est particulièrement important pour les obligations sans garantie gouvernementale. En fouillant dans les historiques de paiement, les dossiers de crédit et en comprenant la valeur actuelle de la maison, il est possible de prédire la probabilité d'un défaut. L'ajout d'un modèle de taux d'intérêt et d'un modèle de remboursement anticipé permet également de prédire la probabilité d'un remboursement anticipé.

Comment ils ont choisi l'outil \ technologie pour répondre à leurs besoins.

Si le projet est piloté par l'informatique interne, il est généralement basé sur un grand fournisseur de bases de données comme Oracle, Teradata ou Netezza. Si elle est motivée par les quants, ils sont plus susceptibles d'aller directement au fournisseur de données ou à un système «tout compris» tiers.

Quel type de modèle ils ont identifié à partir des données et quel type de modèle qu'ils recherchaient à partir des données.

La liaison des données donne un excellent aperçu de qui est susceptible de faire défaut sur ses prêts et de les rembourser par anticipation. Lorsque vous avez agrégé les prêts en obligations, cela peut être la différence entre une obligation émise à $100,000,000 being worth that amount, or as little as$ 20 000 000.

— MathAttack
source

Avez-vous vu des cas où des techniques d'apprentissage automatique sont utilisées pour la modélisation de prépaiement. C'est à dire les réseaux de neurones, forêt aléatoire, GBM?

— Josh

5

Kaggle a un bref résumé des applications:

http://www.kaggle.com/wiki/DataScienceUseCases

Revolution Analytics a publié de nombreuses études de cas générales, des fiches techniques et des livres blancs:

http://www.revolutionanalytics.com/resources/case-studies?type[0 E5E=case_study&keys=

Pour les applications en sciences et en génie, vous pouvez consulter les études de cas Nutonian :

http://www.nutonian.com/industries/

Analyx a parlé aux clients potentiels des applications dans le commerce:

http://www.analyx.com/en/company/references/cases.aspx

Le Financial Times a publié une collection d'histoires sur les applications commerciales des mégadonnées:

http://im.ft-static.com/content/images/e91a32d0-2bac-11e3-bfe2-00144feab7de.pdf .

McKinsey a décrit les demandes en 2011:

http://www.mckinsey.com/insights/business_technology/big_data_the_next_frontier_for_innovation

D'autres cabinets de conseil ont fait des rapports similaires.

Gartner a créé Hype Cycle for Big data:

entrez la description de l'image ici

Sans parler des études de cas et des livres blancs d'autres sociétés qui souhaitent promouvoir leurs produits.

— Anton Tarasenko
source

1

Jetez un œil aux rapports de données gratuits d'O'Reilly . Vous pouvez trouver des rapports sur la banque et la fintech, les sports, la mode, la musique, la santé, le pétrole et le gaz, etc.

Gardez à l'esprit que le rapport McKinsey mentionné plus haut est un rapport classique et à lire absolument.

— Hamideh
source