Quelle est la différence entre l'exploration de données et l'analyse statistique?

19

Pour certains antécédents, mon éducation statistique a été, je pense, plutôt traditionnelle. Une question spécifique est posée, la recherche est conçue et les données sont collectées et analysées pour donner un aperçu de cette question. Par conséquent, j'ai toujours été sceptique quant à ce que je considérais comme du «dragage de données», c'est-à-dire la recherche de modèles dans un grand ensemble de données et l'utilisation de ces modèles pour tirer des conclusions. J'ai tendance à associer ce dernier à l'exploration de données et j'ai toujours considéré cela comme sans principes (avec des choses comme les routines de sélection de variables algorithmiques).

Néanmoins, il existe une littérature importante et croissante sur l'exploration de données. Souvent, je vois que cette étiquette fait référence à des techniques spécifiques telles que le clustering, la classification basée sur les arbres, etc. question. J'appellerais l'ancienne exploration de données et la dernière analyse statistique.

Je travaille dans l'administration universitaire et on m'a demandé de faire du "data mining" pour identifier les problèmes et les opportunités. Conformément à mes antécédents, mes premières questions étaient les suivantes: que voulez-vous apprendre et quelles sont les choses qui, selon vous, contribuent à résoudre le problème? D'après leur réponse, il était clair que moi et la personne posant la question avions des idées différentes sur la nature et la valeur de l'exploration de données.

data-mining terminology analysis

— Brett
source

1

dupliquer? stats.stackexchange.com/questions/6/…

— Neil McGuigan

3

Si c'est en double, je peux deviner que l'exploration de données et l'apprentissage automatique sont la même chose!

— George Dontas

@George Dontas Oui, je suis venu ici d'un lien dans les commentaires si l'autre question dans l'espoir de voir qu'il y avait une différence entre le ML et l'exploration de données.

— DJG

20

Jerome Friedman a écrit un article il y a quelque temps: Exploration de données et statistiques: quelle est la connexion? , ce que je pense que vous trouverez intéressant.

L'exploration de données était une préoccupation largement commerciale et motivée par les besoins des entreprises (conjuguée au «besoin» des fournisseurs de vendre des systèmes logiciels et matériels aux entreprises). Friedman a noté une chose: toutes les «fonctionnalités» mises en évidence proviennent de l'extérieur des statistiques - des algorithmes et des méthodes comme les réseaux de neurones à l'analyse de données basée sur l'interface graphique - et aucune des offres statistiques traditionnelles ne semble faire partie de ces systèmes. (régression, test d'hypothèse, etc.). "Notre méthodologie de base a été largement ignorée." Il a également été vendu comme axé sur l'utilisateur dans le sens de ce que vous avez noté: voici mes données, voici ma "question commerciale", donnez-moi une réponse.

Je pense que Friedman essayait de provoquer. Il ne pensait pas que l'exploration de données avait de sérieux fondements intellectuels en ce qui concerne la méthodologie, mais que cela changerait et que les statisticiens devraient jouer un rôle plutôt que de l'ignorer.

Ma propre impression est que cela s'est plus ou moins produit. Les lignes sont floues. Les statisticiens publient désormais dans des revues d'exploration de données. Les mineurs de données semblent aujourd'hui avoir une sorte de formation statistique. Bien que les packages d'exploration de données ne battent toujours pas les modèles linéaires généralisés, la régression logistique est bien connue des analystes - en plus du clustering et des réseaux neuronaux. La conception expérimentale optimale peut ne pas faire partie du noyau d'exploration de données, mais le logiciel peut être cajolé pour cracher des valeurs de p. Le progrès!

— ars
source

1

Il s'agit d'un excellent article qui correspond à mon point de vue sur ce qu'est l'exploration de données et en quoi elle diffère des statistiques. Le hic, c'est de 1997! Notez un acte d'accusation du document ou votre recommandation, mais le degré auquel j'ai suivi l'exploration de données. Il semble que je doive prendre un livre actuel sur l'exploration de données pour rattraper son retard.

— Brett

Hé, j'ai gardé la date volontairement parce que je pensais que ce serait amusant de remarquer la durée. :) Les livres de Michael Berry et Gordon Linoff sont plutôt bons et plairont aux statisticiens (pour une exposition plus large plutôt que pour l'apprentissage de techniques statistiques). Si vous voulez avoir une idée du côté flou et "entreprise" de ce champ, parcourir l'un des livres sur un produit fournisseur, comme Enterprise Miner de SAS ou Clementine de SPSS, peut vous aider. Je ne recommanderais pas de les acheter à moins que vous ne travailliez avec le produit lui-même.

— ars

10

La différence entre les statistiques et l'exploration de données est en grande partie historique, car elles proviennent de traditions différentes: les statistiques et l'informatique. L'exploration de données s'est développée parallèlement au travail dans le domaine de l'intelligence artificielle et des statistiques.

La section 1.4 de Witten & Frank résume mon point de vue, je vais donc le citer en détail:

Quelle est la différence entre l'apprentissage automatique et les statistiques? Les cyniques, regardant avec ironie l'explosion de l'intérêt commercial (et du battage médiatique) dans ce domaine, assimilent l'exploration de données aux statistiques et au marketing. En vérité, vous ne devriez pas chercher une ligne de démarcation entre l'apprentissage automatique et les statistiques car il existe un continuum - et un multidimensionnel à celui-là - de techniques d'analyse de données. Certains dérivent des compétences enseignées dans les cours de statistiques standard, et d'autres sont plus étroitement associés au type d'apprentissage automatique issu de l'informatique. Historiquement, les deux parties ont eu des traditions assez différentes. S’il est contraint de signaler une seule différence d’accent, il se peut que les statistiques se préoccupent davantage de tester des hypothèses,

Dans le passé, des méthodes très similaires se sont développées en parallèle dans l'apprentissage automatique et les statistiques ...

Mais maintenant, les deux perspectives ont convergé.

NB1 IMO, l'exploration de données et l'apprentissage automatique sont des termes très étroitement liés. Dans un sens, les techniques d'apprentissage automatique sont utilisées dans l'exploration de données. Je vois régulièrement ces termes comme interchangeables, et dans la mesure où ils sont différents, ils vont généralement de pair. Je suggérerais de parcourir le papier "Les Deux Cultures" ainsi que les autres fils de ma question d'origine.

NB2 Le terme «exploration de données» peut avoir une connotation négative lorsqu'il est utilisé familièrement pour signifier laisser un certain algorithme se desserrer sur les données sans aucune compréhension conceptuelle. Le sentiment est que l'exploration de données conduira à des résultats erronés et à un sur-ajustement. Par conséquent, j'évite généralement d'utiliser le terme lorsque je parle à des non-experts, et j'utilise plutôt l'apprentissage automatique ou l'apprentissage statistique comme synonyme.

— Shane
source

À propos de NB2 - Je pense que vous avez tout à fait raison concernant la connotation de l'exploration de données et je n'avais pas fait le lien avec l'apprentissage automatique. Ma formation a toujours mis l'accent sur les problèmes de sur-ajustement, de falsification et de capitalisation sur le hasard et en tant que tel, j'ai été sceptique sur la DM - et je le suis toujours, peut-être jusqu'à ce que quelqu'un me dise réellement QUOI il fait et COMMENT. Merci.

— Brett

1

Mon seul reproche sur la distinction ML / DM serait que je pense que DM est plus large. Par exemple, OLAP et les outils associés incluent les technologies d'exploration de données. Mais ceux-ci proviennent du côté base de données de l'informatique plutôt que de l'apprentissage automatique. Le rôle du commerce dans la définition du «sens» de l'exploration de données est difficile à ignorer - il apporte des éléments des sciences de la gestion, de la recherche opérationnelle, de l'apprentissage automatique et des statistiques selon les besoins. Cela donne également l'impression de quelque chose de fragile, mais c'est généralement un problème pour les puristes et non pour les pratiquants.

— ars

@ars: je suis d'accord. J'essayais de le dire un peu en disant que "les techniques d'apprentissage automatique sont utilisées dans l'exploration de données" (c'est-à-dire que l'exploration de données est un super-ensemble). Votre point sur les applications commerciales est également clair. Bien que quelqu'un dans une application commerciale de nos jours puisse se référer à son travail comme autre chose (par exemple "science des données").

— Shane

Bon, j'aurais dû dire que j'essayais d'étoffer les différences, plutôt que de chicaner avec ce que vous avez écrit. Toutes mes excuses pour la mauvaise orientation. Bon point sur l'évolution des temps et des termes comme l'adoption de la "science des données". Un des livres de Gelman ne commence-t-il pas par quelque chose comme «les statistiques sont la science des données»? Alors "ils" volent des statisticiens. Encore. :)

— ars

8

L'exploration de données est classée comme descriptive ou prédictive. L'exploration de données descriptive consiste à rechercher des ensembles de données massifs et à découvrir les emplacements de structures ou de relations inattendues, les modèles, les tendances, les clusters et les valeurs aberrantes dans les données. D'autre part, Predictive consiste à créer des modèles et des procédures de régression, de classification, de reconnaissance de formes ou de tâches d'apprentissage automatique, et à évaluer la précision prédictive de ces modèles et procédures lorsqu'ils sont appliqués à de nouvelles données.

Le mécanisme utilisé pour rechercher des motifs ou une structure dans des données de grande dimension peut être manuel ou automatisé; la recherche peut nécessiter l'interrogation interactive d'un système de gestion de base de données, ou elle peut impliquer l'utilisation d'un logiciel de visualisation pour détecter les anomalies dans les données. En termes d'apprentissage automatique, l'exploration de données descriptive est connue sous le nom d'apprentissage non supervisé, tandis que l'exploration de données prédictive est connue sous le nom d'apprentissage supervisé.

La plupart des méthodes utilisées dans l'exploration de données sont liées aux méthodes développées dans les statistiques et l'apprentissage automatique. Au premier rang de ces méthodes figurent les sujets généraux de régression, de classification, de regroupement et de visualisation. En raison de la taille énorme des ensembles de données, de nombreuses applications d'exploration de données se concentrent sur les techniques de réduction de dimensionnalité (par exemple, la sélection de variables) et les situations dans lesquelles des données de grande dimension sont soupçonnées de se trouver sur des hyperplans de dimension inférieure. Une attention récente a été portée aux méthodes d'identification des données de grande dimension reposant sur des surfaces ou des variétés non linéaires.

Il existe également des situations dans l'exploration de données où l'inférence statistique - dans son sens classique - n'a aucun sens ou est d'une validité douteuse: la première se produit lorsque nous avons toute la population à rechercher des réponses, et la seconde se produit lorsqu'un ensemble de données est un Échantillon «de convenance» plutôt que d'être un échantillon aléatoire tiré d'une population importante. Lorsque les données sont collectées dans le temps (par exemple, les transactions de détail, les transactions boursières, les dossiers des patients, les relevés météorologiques), l'échantillonnage peut également ne pas avoir de sens; l'ordre chronologique des observations est crucial pour comprendre le phénomène générant les données, et traiter les observations comme indépendantes lorsqu'elles peuvent être fortement corrélées fournira des résultats biaisés.

En plus de la théorie et des méthodes statistiques, les composants centraux de l'exploration de données sont l'efficacité de calcul et de calcul, le traitement automatique des données, les techniques de visualisation de données dynamiques et interactives et le développement d'algorithmes.

L'un des problèmes les plus importants de l'exploration de données est le problème de calcul de l' évolutivité . Les algorithmes développés pour calculer les méthodes statistiques exploratoires et confirmatoires standard ont été conçus pour être rapides et efficaces sur le plan informatique lorsqu'ils sont appliqués à des ensembles de données de petite et moyenne taille; pourtant, il a été démontré que la plupart de ces algorithmes ne sont pas à la hauteur du défi de gérer d’énormes ensembles de données. À mesure que les ensembles de données se développent, de nombreux algorithmes existants montrent une tendance à ralentir considérablement (voire à s'arrêter).

— George Dontas
source

8

L'exploration de données est des statistiques, avec quelques différences mineures. Vous pouvez y voir des statistiques de re-branding, car les statisticiens sont un peu bizarres.

Il est souvent associé à des statistiques de calcul, c'est-à-dire uniquement des choses que vous pouvez faire avec un ordinateur.

Les mineurs de données ont volé une proportion importante de statistiques multivariées et l'ont qualifié de leur. Consultez la table des matières de tout livre multivarié des années 90 et comparez-le à un nouveau livre d'exploration de données. Très similaire.

Les statistiques sont associées au test d'hypothèses et à la construction de modèles, tandis que l'exploration de données est davantage associée à la prédiction et à la classification, qu'il existe ou non un modèle compréhensible.

— Neil McGuigan
source

1

Quel est le doublon? Je ne vois rien d'évident.

— Rob Hyndman

1

Assez similaire à celui-ci, je pensais: stats.stackexchange.com/questions/6/…

— Neil McGuigan

1

D'accord. Je cherchais du data mining, pas du machine learning. Veuillez voter pour fermer si vous pensez qu'il s'agit d'un doublon.

— Rob Hyndman

Hmm, donc Data Mining == Machine Learning?

— ars

1

1) Je ne vois pas la distinction stat stat. Les statisticiens ne font pas grand-chose qui ne nécessite pas d'ordinateur. Je suppose que vous voulez dire des procédures intensives en calcul telles que les solutions itératives, etc.? Mais alors, ceux-ci sont également courants dans le travail statistique moderne qui n'est pas l'exploration de données. 2) Dans mon propre travail (statistiques), je me suis intéressé à la construction de modèles pour l'explication et la prédiction, en fonction du problème - je n'aurais pas considéré cette exploration de données. 3) Je suis resté avec la conclusion que la DM moderne est une application particulière des statistiques, ce qui, je pense, est une belle conclusion.

— Brett

6

J'ai déjà écrit un article où j'ai fait quelques observations comparant l'exploration de données à la psychologie. Je pense que ces observations peuvent saisir certaines des différences que vous identifiez:

"L'exploration de données semble plus axée sur la prédiction à l'aide des variables observées que sur la compréhension du système causal des variables latentes; la psychologie est généralement plus concernée par le système causal des variables latentes.
L'exploration de données implique généralement des ensembles de données massifs (par exemple 10 000 + lignes) collectés dans un autre but que celui de l'exploration de données. Les ensembles de données psychologiques sont généralement petits (par exemple, moins de 1 000 ou 100 lignes) et collectés explicitement pour explorer une question de recherche.
L'analyse psychologique implique généralement de tester des modèles spécifiques. Les approches automatisées de développement de modèles ont tendance à ne pas être théoriquement intéressantes. "- Exploration de données et R

— Jeromy Anglim
source

Je pense que les points 2 et 3 sont des commentaires utiles et cohérents avec ce que je considère comme la distinction entre les deux SA et DM. Je ne suis pas sûr de votre premier point. J'ai fait un travail statistique où j'étais intéressé à améliorer la compréhension des relations causales. Cependant, j'ai également effectué un travail statistique où la tâche consistait à prendre des relations connues et à développer des modèles dans le seul but de la prédiction mais qui ne partageaient aucune des autres caractéristiques du "data mining".

— Brett

4

Je ne pense pas que la distinction que vous faites soit vraiment liée à la différence entre l'exploration de données et l'analyse statistique. Vous parlez de la différence entre l'analyse exploratoire et l'approche de modélisation-prédiction.

Je pense que la tradition de la statistique se construit à toutes les étapes: analyse exploratoire, puis modélisation, puis estimation, puis test, puis prévision / inférence. Le statisticien fait une analyse exploratoire pour comprendre à quoi ressemblent les données (résumé des fonctions sous R!) Je suppose que le datamining est moins structuré et pourrait être identifié par une analyse exploratoire. Cependant il utilise des techniques statistiques qui sont d'estimation, de prévision, de classification ...

— Robin Girard
source

Je peux l'acheter. L'exploration de données est une application plus exploratoire des techniques statistiques. Cependant, je ne pense pas que cette distinction soit suffisante. Quand je fais de l'EDA sur mon ensemble de 100 observations d'une expérience conçue, je ne pense pas que quiconque qualifierait cela de data mining, n'est-ce pas?

— Brett