Quelle est la différence entre l'exploration de données, les statistiques, l'apprentissage automatique et l'IA?


208

Quelle est la différence entre l'exploration de données, les statistiques, l'apprentissage automatique et l'IA?

Serait-il juste de dire que ce sont 4 domaines qui tentent de résoudre des problèmes très similaires mais avec des approches différentes? Qu'ont-ils en commun et en quoi diffèrent-ils? S'il y avait une sorte de hiérarchie entre eux, ce serait quoi?

Des questions similaires ont déjà été posées, mais je ne comprends toujours pas:

Réponses:


109

Ils se chevauchent considérablement, mais certaines distinctions peuvent être faites. Par nécessité, je vais devoir trop simplifier certaines choses ou en éviter d'autres, mais je ferai de mon mieux pour donner une idée de ces domaines.

Tout d'abord, l'intelligence artificielle est assez distincte du reste. AI est l'étude de la création d'agents intelligents. En pratique, c'est comment programmer un ordinateur pour qu'il se comporte et effectue une tâche comme le ferait un agent intelligent (par exemple, une personne). Cela ne doit pas nécessairement impliquer l'apprentissage ou l'induction, cela peut simplement être un moyen de "construire un meilleur piège à souris". Par exemple, les applications d'intelligence artificielle ont inclus des programmes pour surveiller et contrôler les processus en cours (par exemple, augmenter l'aspect A s'il semble trop bas). Notez que l'IA peut inclure pratiquement tout ce que fait une machine, à condition qu'elle ne le fasse pas "bêtement".

Cependant, dans la pratique, la plupart des tâches qui nécessitent une intelligence nécessitent une capacité à induire de nouvelles connaissances à partir d’expériences. Ainsi, une grande partie de l'IA est l'apprentissage automatique . Un programme informatique est réputé apprendre une tâche de l'expérience si ses performances s'améliorent avec l'expérience, selon certaines mesures de performance. L'apprentissage automatique implique l'étude d'algorithmes capables d'extraire automatiquement des informations (sans assistance humaine en ligne). Il est certain que certaines de ces procédures comprennent des idées dérivées directement à partir, ou inspirés par des statistiques classiques, mais ils n'ontêtre. De la même manière que l'intelligence artificielle, l'apprentissage automatique est très large et peut inclure presque tout, pourvu qu'il comporte un composant inductif. Un exemple d'algorithme d'apprentissage machine pourrait être un filtre de Kalman.

L'exploration de données est un domaine qui tire beaucoup de son inspiration et de ses techniques de l'apprentissage automatique (et de certaines statistiques), mais son objectif est différent . L'exploration de données est effectuée par une personne , dans une situation spécifique, sur un ensemble de données particulier, avec un objectif en tête. Généralement, cette personne souhaite tirer parti de la puissance des différentes techniques de reconnaissance de formes développées dans l’apprentissage automatique. Très souvent, le jeu de données est volumineux , compliqué et / ou peut présenter des problèmes particuliers(comme il y a plus de variables que d'observations). Habituellement, l’objectif est soit de découvrir / de générer des informations préliminaires dans un domaine où il n’y avait que très peu de connaissances à l’avance, soit de pouvoir prédire avec précision les futures observations. De plus, les procédures d’exploration de données pourraient être soit «non supervisées» (nous ne connaissons pas la réponse - découverte), soit «supervisées» (nous connaissons la réponse - la prévision). Notez que l'objectif n'est généralement pas de développer une compréhension plus sophistiquée du processus de génération de données sous-jacent. Les techniques courantes d’exploration de données comprennent les analyses par grappes, les arbres de classification et de régression et les réseaux de neurones.

Je suppose que je n’ai pas besoin d’expliquer les statistiques sur ce site, mais je peux peut-être dire quelques mots. La statistique classique (ici, à la fois fréquentiste et bayésienne) est un sous-thème des mathématiques. Je pense que c'est en grande partie l'intersection de ce que nous savons sur les probabilités et de ce que nous savons sur l'optimisation. Bien que la statistique mathématique puisse être étudiée comme un simple objet d’investigation platonicien, elle est généralement comprise comme plus pratique et plus concrète que d’autres domaines mathématiques, plus rares. En tant que tel (et notamment contrairement à l'exploration de données ci-dessus), il est principalement utilisé pour mieux comprendre un processus particulier de génération de données. Ainsi, il commence généralement par un modèle formellement spécifiéIl en résulte des procédures dérivées pour extraire avec précision ce modèle des instances bruitées (estimation, en optimisant une fonction de perte) et le distinguer des autres possibilités (inférences basées sur les propriétés connues des distributions d’échantillonnage). La technique statistique prototype est la régression.


1
Je suis d'accord avec la plupart des articles, mais je dirais que l'IA n'essaye généralement pas de créer des agents intelligents (qu'est-ce que l'intelligence, de toute façon?), Mais des agents rationnels. Par rationnel, on entend "optimal compte tenu des connaissances disponibles sur le monde". Certes, le but ultime est quelque chose comme un résolveur de problèmes général.
kutschkem

3
désolé, je ne comprends toujours pas la différence entre l'exploration de données et l'apprentissage automatique. d'après ce que je vois, l'exploration de données = l'apprentissage non supervisé de machine learning. L'apprentissage automatique n'est-il pas supervisé pour la découverte de nouvelles idées?
dtc

Un utilisateur anonyme a suggéré cet article de blog pour un tableau décrivant les différences entre l'exploration de données et l'apprentissage automatique en fonction de paramètres.
gung

1
Common data mining techniques would include cluster analyses, classification and regression trees, and neural networks.Est-il prudent de dire qu'un réseau de neurones est un exemple d'outil d'apprentissage automatique utilisé dans l'exploration de données par rapport à une analyse de cluster qui est un algorithme non conçu pour l'apprentissage automatique utilisé pour l'exploration de données?
t0mgs

En réalité, tout est flou, @ TomGranot-Scalosub. Je dirais que les réseaux de neurones sont définitivement ML, et certainement les analyses en grappes et CART sont étudiées par des chercheurs en ML. J'essaie de rendre les idées plus claires et distinctes, mais il n'y a pas vraiment de démarcation nette entre ces catégories.
gung

41

De nombreuses autres réponses ont couvert les points principaux, mais vous avez demandé une hiérarchie, le cas échéant, et la façon dont je la conçois. Bien qu'elles constituent chacune une discipline à part entière, il existe une hiérarchie que personne ne semble avoir encore mentionnée, car chacune s'appuie sur le précédent.

Les statistiques ne concernent que les chiffres et la quantification des données. Il existe de nombreux outils pour trouver les propriétés pertinentes des données, mais cela se rapproche beaucoup des mathématiques pures.

L'exploration de données consiste à utiliser des statistiques ainsi que d'autres méthodes de programmation pour trouver des modèles cachés dans les données afin d' expliquer certains phénomènes. L'exploration de données construit l'intuition sur ce qui se passe réellement dans certaines données et reste encore un peu plus en mathématiques qu'en programmation, mais utilise les deux.

Machine Learning utilise des techniques d’ exploration de données et d’autres algorithmes d’apprentissage pour créer des modèles de ce qui se cache derrière certaines données, de manière à pouvoir prévoir les résultats futurs. Les mathématiques constituent la base de nombreux algorithmes, mais cela concerne davantage la programmation.

L'intelligence artificielle utilise des modèles construits par Machine Learning et d'autres moyens de raisonner sur le monde et de susciter un comportement intelligent , qu'il s'agisse de jouer à un jeu ou de conduire un robot / une voiture. L'intelligence artificielle a un objectif à atteindre en prévoyant comment les actions affecteront le modèle du monde et choisira les actions qui permettront le mieux d'atteindre cet objectif. Très basé sur la programmation.

En bref

  • La statistique quantifie les nombres
  • Le Data Mining explique les patterns
  • Machine Learning prédit avec des modèles
  • Intelligence artificielle se comporte et raisons

Ceci étant dit, il y aura des problèmes d'intelligence artificielle qui ne relèvent que de l'intelligence artificielle et de la même manière pour les autres domaines, mais la plupart des problèmes intéressants aujourd'hui (voitures autonomes, par exemple) pourraient facilement et correctement être appelés tous ces problèmes. J'espère que cela clarifie la relation entre eux pour laquelle vous avez posé la question.


Avez-vous déjà utilisé WEKA ou RapidMiner? Par exemple, EM se trouve dans l'exploration de données et applique un modèle. En dehors de cela, consultez la définition donnée par mariana soffer et comparez-la avec votre réponse. Il y a quelques années, j'ai lu Bishop et Russell / Norvig, mais pour autant que je me souvienne du def. par mariana soffer est plus approprié. L'exploration de données BTW est ("seulement") la principale étape avant la découverte des connaissances. l'exploration de données ne fait que récupérer des données, et ensuite des informations, lorsque vous utilisez un algorithme avec des paramètres adéquats. l'exploration de données ne peut pas expliquer les modèles.
mnémonique

Non, @ mnémonique, cette définition de l'IA est bien plus en accord avec Russell et Norvig que celle de mariana, qui est assez datée
nealmcb

2
Je pense que la description des statistiques est médiocre; Le nombre de chiffres quantifiés correspond aux statistiques rapportées par le département national des statistiques, mais ce n'est pas la même chose que la science statistique qui crée des modèles pour les données, en estime les paramètres et en fait des déductions. En outre, la relation entre l'exploration de données et l'apprentissage automatique est inversée. la science des données utilise des techniques d'apprentissage automatique, et non l'inverse. Voir aussi la réponse de Ken van Haren.
Richard Hardy

25
  • Les statistiques concernent les modèles probabilistes, en particulier l'inférence sur ces modèles à l'aide de données.
  • L'apprentissage automatique vise à prédire un résultat particulier à partir de certaines données. Presque toute méthode d’apprentissage automatique raisonnable peut être formulée comme un modèle probabiliste formel. L’apprentissage automatique est donc à peu près la même chose que les statistiques, mais il diffère par le fait qu’il ne s’intéresse généralement pas aux estimations de paramètres (prédiction juste) et qu’il se concentre sur l'efficacité de calcul et les grands ensembles de données.
  • Le Data Mining est (si je comprends bien) un apprentissage automatique appliqué. Il met davantage l'accent sur les aspects pratiques du déploiement d'algorithmes d'apprentissage automatique sur de grands ensembles de données. C'est très semblable à l'apprentissage machine.
  • L'intelligence artificielle est tout ce qui concerne l'intelligence informatique (une définition arbitraire de celle-ci). Donc, cela comprend beaucoup de choses.

En général, les modèles probabilistes (et donc les statistiques) se sont avérés le moyen le plus efficace de structurer formellement les connaissances et la compréhension dans une machine, à tel point que les trois autres (AI, ML et DM) sont aujourd'hui principalement des sous-domaines de statistiques. Pas la première discipline à devenir un bras fantôme de la statistique ... (économie, psychologie, bioinformatique, etc.)


5
@ Ken - Il serait inexact de décrire la psychologie économique ou l'IA comme des bras fantômes de statistiques - même si les statistiques sont fortement utilisées au sein de chacune d'elles pour analyser de nombreux problèmes qui intéressent ces domaines. Vous ne voudriez pas suggérer que la médecine est un bras fantôme des statistiques même si la plupart des conclusions médicales reposent largement sur l'analyse des données.
mpacer

@ Ken - C'est une excellente réponse, mais vous pourriez décrire plus en détail en quoi consiste l'IA. Par exemple, historiquement, l'IA a également inclus une grande partie de l'analyse de modèles non probabilistes (par exemple, systèmes de production, automates cellulaires, etc., voir par exemple Newell et Simon, 1972). Bien sûr, tous ces modèles sont des exemples limitatifs de certains modèles probabilistes, mais ils n’ont été analysés dans cette optique que bien plus tard.
mpacer

4
L'exploration de données va au-delà de l'apprentissage automatique, car elle implique en réalité la manière dont les données sont stockées et indexées pour accélérer les algorithmes. Il peut être caractérisé comme utilisant principalement des méthodes d'IA, de ML et de statistiques et les associant à des techniques de gestion et de présentation des données efficaces et intelligentes. Lorsqu'il ne s'agit pas de gestion de données, vous pouvez souvent simplement appeler cela "apprentissage automatique". Il existe cependant certaines tâches, notamment "non supervisées", où il n'y a pas d'apprentissage, mais aussi pas de gestion de données, elles sont encore appelées "exploration de données" (clustering, détection de valeurs aberrantes).
Anony-Mousse

21

On peut dire qu'ils sont tous liés, mais ce sont toutes des choses différentes. Bien que vous puissiez avoir des points communs entre eux, tels que celui utilisé dans les statistiques et l'exploration de données, vous utilisez des méthodes de clustering.
Laissez-moi essayer de définir brièvement chacun:

  • La statistique est une très ancienne discipline basée principalement sur des méthodes mathématiques classiques, qui peuvent être utilisées dans le même but que l'exploration de données, qui consiste à classer et à regrouper des éléments.

  • L'exploration de données consiste à construire des modèles afin de détecter les modèles permettant de classer ou de prévoir des situations en fonction d'un nombre de faits ou de facteurs.

  • L'intelligence artificielle (cocher Marvin Minsky *) est la discipline qui tente d'imiter le fonctionnement du cerveau avec des méthodes de programmation, par exemple la création d'un programme qui joue aux échecs.

  • L'apprentissage automatique consiste à acquérir des connaissances et à les stocker sous une forme quelconque dans l'ordinateur. cette forme peut être constituée de modèles mathématiques, d'algorithmes, etc. Tout ce qui peut aider à détecter des modèles.


2
Non, la plupart des IA modernes ne suivent pas cette approche précoce consistant à "imiter le cerveau". Il se concentre sur la création "d'agents rationnels" agissant dans un environnement visant à maximiser l'utilité, et est plus étroitement lié à l'apprentissage automatique. Voir le livre de Russell et Norvig.
nealmcb

1
Je ne vois pas la différence entre ML et l'exploration de données dans votre définition
Martin Thoma

16

Je connais le mieux l’apprentissage automatique - axe d’exploration de données - et je vais donc me concentrer sur cela:

L'apprentissage machine a tendance à s'intéresser à l'inférence dans des situations non standard, par exemple des données non iid, un apprentissage actif, un apprentissage semi-supervisé, un apprentissage avec des données structurées (par exemple des chaînes ou des graphiques). ML tend également à s'intéresser aux limites théoriques de ce qui peut être appris, qui constituent souvent la base des algorithmes utilisés (par exemple, la machine à vecteurs de support). ML a tendance à être de nature bayésienne.

L'exploration de données est intéressée par la recherche de modèles de données que vous ne connaissez pas déjà. Je ne suis pas sûr que cela soit très différent de l'analyse de données exploratoire en statistique, alors qu'en apprentissage automatique, il existe généralement un problème plus défini à résoudre.

ML a tendance à s'intéresser davantage aux petits ensembles de données pour lesquels le problème est la sur-adaptation, tandis que l'exploration de données a tendance à s'intéresser aux ensembles de données à grande échelle dans lesquels le problème concerne les quantités de données.

Les statistiques et l’apprentissage automatique fournissent un grand nombre des outils de base utilisés par les mineurs de données.


Je ne suis pas d'accord avec "ML tend à s'intéresser davantage aux petits ensembles de données".
Martin Thoma

L'exploration de données devient beaucoup plus difficile avec de petits ensembles de données car elle augmente les chances de trouver une association parasite (et augmente la difficulté de la détecter). Avec de petits ensembles de données, les inférences qui font le moins de choix possible ont tendance à être beaucoup plus sûres.
Dikran Marsupial

13

Voici mon point de vue. Commençons par les deux très grandes catégories:

  • tout ce qui prétend même être intelligent est l' intelligence artificielle (y compris ML et DM).
  • tout ce qui résume les données est une statistique , bien que vous ne l'appliquiez généralement qu'aux méthodes qui prêtent attention à la validité des résultats (souvent utilisées dans ML et DM)

ML et DM sont généralement à la fois une IA et des statistiques, car elles impliquent des méthodes de base des deux. Voici certaines des différences:

  • en apprentissage machine , vous avez un objectif bien défini (généralement la prédiction )
  • dans l'exploration de données , vous avez essentiellement l'objectif " quelque chose que je ne savais pas auparavant "

De plus, l’exploration de données implique généralement beaucoup plus de gestion de données , c’est-à-dire comment organiser les données dans des structures d’index et des bases de données efficaces.

Malheureusement, ils ne sont pas si faciles à séparer. Par exemple, il existe un «apprentissage non supervisé», qui est souvent plus étroitement lié à la gestion du développement qu'à la gestion du cycle, car il ne peut pas être optimisé pour atteindre l'objectif. En revanche, les méthodes de gestion de la modélisation sont difficiles à évaluer (comment notez-vous quelque chose que vous ne connaissez pas?) Et sont souvent évaluées selon les mêmes tâches que l'apprentissage automatique, en omettant certaines informations. Cependant, cela leur donnera généralement l'impression de fonctionner moins bien que les méthodes d'apprentissage automatique qui peuvent être optimisées pour atteindre l'objectif réel de l'évaluation.

En outre, ils sont souvent utilisés en combinaison. Par exemple, une méthode d'exploration de données (par exemple, la mise en cluster ou la détection de valeurs aberrantes non supervisées) est utilisée pour prétraiter les données, puis la méthode d'apprentissage automatique est appliquée aux données prétraitées pour former de meilleurs classificateurs.

L'apprentissage automatique est généralement beaucoup plus facile à évaluer: il existe un objectif tel que le score ou la prédiction de classe. Vous pouvez calculer la précision et rappeler. Dans l'exploration de données, la plupart des évaluations sont effectuées en omettant certaines informations (telles que les étiquettes de classe), puis en vérifiant si votre méthode a découvert la même structure. Cela est naïf dans le sens où vous supposez que les étiquettes de classe encodent complètement la structure des données; vous punissez en fait un algorithme d'exploration de données qui découvre quelque chose de nouveau dans vos données. Une autre manière - indirectement - de l’évaluer, est de savoir comment la structure découverte améliore les performances de l’algorithme ML réel (par exemple, lors du partitionnement de données ou de la suppression des valeurs éloignées). Néanmoins, cette évaluation est basée sur la reproduction des résultats existants, ce qui n’est pas vraiment l’objectif de l’exploration de données ...


1
Votre réponse est très perspicace. J'apprécie particulièrement le dernier paragraphe concernant les différences entre l'évaluation de la performance du BC et celle du DM.
Justis

8

J'ajouterais quelques observations à ce qui a été dit ...

L'intelligence artificielle est un terme très large qui désigne tout ce qui a trait aux machines effectuant des activités ressemblant à un raisonnement ou à l'apparition de senseurs, allant de la planification d'une tâche à la coopération avec d'autres entités, en passant par l'apprentissage de la marche à pied des membres. Une définition pithy est que l'IA est quelque chose d'informatique que nous ne savons pas encore bien faire. (Une fois que nous savons comment bien le faire, il tire généralement son propre nom et n'est plus "AI".)

Contrairement à Wikipedia, j’ai l’impression que le Pattern Recognition et le Machine Learning appartiennent au même domaine, mais le premier est pratiqué par des informaticiens tandis que le second est pratiqué par des statisticiens et des ingénieurs. (De nombreux domaines techniques sont découverts à maintes reprises par différents sous-groupes, qui apportent souvent leur propre jargon et leur propre mentalité.)

L’exploration de données, dans mon esprit de toute façon, prend Machine Learning / Pattern Recognition (les techniques qui fonctionnent avec les données) et les englobe dans des techniques de base de données, d’infrastructure et de validation / nettoyage de données.


6
L'apprentissage machine et la reconnaissance des formes ne sont pas la même chose, l'apprentissage machine s'intéresse également à des choses telles que la régression et l'inférence causale, etc. La reconnaissance des formes n'est qu'un des problèmes d'intérêt de l'apprentissage machine. La plupart des personnes que je connais en apprentissage machine appartiennent aux départements d'informatique.
Dikran Marsupial

2
@Dikran D'accord, mais ML et PR sont souvent aliasés et présentés sous des sujets similaires d'analyse des données. Mon livre préféré est en effet Pattern Recognition And Machine Learning de Christophe M. Bishop. Voici un compte rendu de John MainDonald dans le JSS, j.mp/etg3w1 .
chl

Je pense aussi que le mot "apprentissage automatique" est beaucoup plus courant que "reconnaissance de modèle" dans le monde CS.
Bayerj

Également sentir ici que ML est plus un terme CS.
Karl Morrison

3

Malheureusement, la différence entre ces domaines réside en grande partie dans les domaines où ils sont enseignés: les statistiques sont basées sur les mathématiques, l’apprentissage automatique dans les départements d’informatique, et l’exploration de données est plus appliquée (utilisée par les départements d’entreprise ou de marketing, développée par les éditeurs de logiciels). .

Premièrement, l'IA (bien que cela puisse signifier n'importe quel système intelligent) a toujours été synonyme d'approches basées sur la logique (systèmes experts, par exemple) plutôt que d'estimation statistique. Les statistiques, basées sur les mathématiques, ont eu une très bonne compréhension théorique, ainsi qu'une solide expérience appliquée en sciences expérimentales, où il existe un modèle scientifique clair, et des statistiques sont nécessaires pour traiter les données expérimentales limitées disponibles. L'accent a souvent été mis sur l'extraction du maximum d'informations à partir de très petits ensembles de données. de plus, il y a un parti pris pour les preuves mathématiques: vous ne serez publié que si vous pouvez prouver des choses sur votre approche. Cela a eu tendance à signifier que les statistiques ont pris du retard dans l'utilisation des ordinateurs pour automatiser l'analyse. Encore, le manque de connaissances en programmation a empêché les statisticiens de travailler sur des problèmes de grande envergure où les problèmes de calcul deviennent importants (prenez en compte les GPU et les systèmes distribués tels que Hadoop). Je pense que des domaines tels que la bioinformatique ont maintenant davantage orienté les statistiques dans cette direction. Enfin, je dirais que les statisticiens sont un groupe plus sceptique: ils ne prétendent pas que les connaissances sont découvertes grâce aux statistiques. Un scientifique émet plutôt une hypothèse et le travail du statisticien est de vérifier que l'hypothèse est corroborée par les données. L'apprentissage automatique est enseigné dans des départements cs, qui n'enseignent malheureusement pas les mathématiques appropriées: le calcul multivariable, les probabilités, les statistiques et l'optimisation ne sont pas monnaie courante ... on a de vagues concepts "glamour" tels qu'apprendre à partir d'exemples ...Eléments d'apprentissage statistique page 30. Cela a tendance à signifier qu'il y a très peu de compréhension théorique et une explosion d'algorithmes, les chercheurs pouvant toujours trouver un jeu de données sur lequel leur algorithme s'avère meilleur. Il y a donc énormément de battage médiatique alors que les chercheurs du ML recherchent la prochaine grande chose: réseaux de neurones, apprentissage en profondeur, etc. Malheureusement, les départements CS ont beaucoup plus d'argent les statisticiens plus sceptiques sont ignorés. Enfin, il y a un penchant empiriste: il existe fondamentalement une croyance sous-jacente selon laquelle si vous envoyez suffisamment de données à l'algorithme, celui-ci "apprend" les bonnes prédictions. Bien que je sois partial contre le blanchiment de capitaux, les statisticiens ont ignoré un constat fondamental: les ordinateurs peuvent révolutionner l’application des statistiques.

Il y a deux façons: a) d'automatiser l'application de tests et de modèles standard. Par exemple, exécuter une batterie de modèles (régression linéaire, forêts aléatoires, etc. en essayant différentes combinaisons d’entrées, paramètres, etc.). Cela ne s’est pas vraiment produit, même si je soupçonne que les concurrents de kaggle développent leurs propres techniques d’automatisation. b) appliquer des modèles statistiques standard à des données volumineuses: pensez par exemple à Google Translate, aux systèmes de recommandation, etc. Les modèles statistiques sous-jacents sont simples, mais l'application de ces méthodes à des milliards de points de données pose d'énormes problèmes de calcul.

L'exploration de données est l'aboutissement de cette philosophie: développer des méthodes automatisées d'extraction de connaissances à partir de données. Cependant, son approche est plus pratique: elle s’applique essentiellement aux données comportementales, où il n’existe pas de théorie scientifique globale (marketing, détection de fraude, spam, etc.) et l’objectif est d’automatiser l’analyse de grands volumes de données: Une équipe de statisticiens pourrait produire de meilleures analyses avec suffisamment de temps, mais il est plus rentable d’utiliser un ordinateur. En outre, comme l'explique D. Hand, il s'agit de l'analyse de données secondaires - des données enregistrées de toute façon plutôt que des données collectées explicitement pour répondre à une question scientifique dans un plan expérimental solide. Statistiques d'exploration de données et plus, D Hand

Donc, je résumerais que l'IA traditionnelle est basée sur la logique plutôt que sur la statistique, que l'apprentissage automatique est une statistique sans théorie et que la statistique est une statistique sans ordinateur, et que l'exploration de données consiste à développer des outils automatisés d'analyse statistique avec une intervention minimale de l'utilisateur.


Cette réponse prend beaucoup de temps, donc il est difficile à suivre et est inutilement longue, mais il est clair que les différences ont plus à voir avec les traditions et les accents disciplinaires qu'autre chose.
Tripartio

1

L'exploration de données consiste à découvrir des modèles cachés ou des connaissances inconnues, qui peuvent être utilisés pour la prise de décision par des personnes.

L'apprentissage automatique consiste à apprendre un modèle pour classer de nouveaux objets.


L'apprentissage automatique ne concerne- t-il que la classification? L'apprentissage automatique ne peut-il pas être utilisé pour atteindre d'autres objectifs?
gung

@gung Absolument pas. L’apprentissage par renforcement est, à mon humble avis, le sous-domaine le plus important de la maîtrise du blanchiment et je ne dirais pas qu’il repose sur la classification mais sur la réalisation d’objectifs.
nbro

@nbro, ce commentaire était censé être un indice pour le PO de reconsidérer à quel point il définissait ML.
gung

0

À mon avis, l'intelligence artificielle pourrait être considérée comme le "sur-ensemble" de domaines tels que l'apprentissage automatique, l'exploration de données, la reconnaissance de formes, etc.

  • La statistique est un domaine des mathématiques qui comprend tous les modèles, techniques et théorèmes mathématiques utilisés dans l'IA.

  • L'apprentissage automatique est un domaine de l'IA qui inclut tous les algorithmes qui appliquent les modèles statistiques mentionnés ci-dessus et donne un sens aux données, c'est-à-dire l'analyse prédictive telle que la mise en grappes et la classification.

  • Le Data Mining est la science qui utilise toutes les techniques ci-dessus (principalement l'apprentissage automatique) afin d'extraire des modèles utiles et importants à partir de données. L’exploration de données consiste généralement à extraire des informations utiles à partir d’énormes ensembles de données, c’est-à-dire le Big Data.


-1

Que diriez-vous de: machines d'apprentissage pour apprendre

Reconnaître des modèles significatifs dans les données: exploration de données

Prédire le résultat à partir de modèles connus: ML

Trouver de nouvelles fonctionnalités pour remapper les données brutes: AI

Ce cerveau d'oiseau a vraiment besoin de définitions simples.


-1

L'exploration de données tente souvent de "prédire" certaines données futures ou "d'expliquer" pourquoi quelque chose se produit.

Les statistiques sont plus utilisées pour valider une hypothèse à mes yeux. Mais ceci est une discussion subjective.

Une différence évidente entre les statisticiens et les miniers de données peut être trouvée dans le type de statistiques sommaires qu’ils examinent.

Les statistiques se limiteront souvent à R² et à la précision, tandis que les sociétés de traitement de données se pencheront sur les courbes AUC, ROC, les courbes de portance, etc., et pourraient également être concernées par l'utilisation d'une courbe de précision liée au coût.

Les progiciels de fouille de données (par exemple, le logiciel open source Weka) ont des techniques intégrées pour la sélection des entrées, prennent en charge la classification des machines à vecteurs, etc., alors qu'elles sont pour la plupart absentes des progiciels statistiques tels que JMP. J'ai récemment participé à un cours sur "l'exploration de données dans jmp" dispensé par le personnel de jmp, et bien que ce soit un package visuellement performant, certaines techniques d'extraction de données essentielles pré / post / mid manquent tout simplement. La sélection des entrées a été effectuée manuellement, pour obtenir un aperçu des données, toujours dans l'exploration de données, votre intention est simplement de publier des algorithmes, intelligemment, sur des données volumineuses et de voir automatiquement ce qui en sort. Le cours a évidemment été enseigné par des spécialistes des statistiques, ce qui a mis en évidence la différence de mentalité entre les deux.

En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.