Malheureusement, la différence entre ces domaines réside en grande partie dans les domaines où ils sont enseignés: les statistiques sont basées sur les mathématiques, l’apprentissage automatique dans les départements d’informatique, et l’exploration de données est plus appliquée (utilisée par les départements d’entreprise ou de marketing, développée par les éditeurs de logiciels). .
Premièrement, l'IA (bien que cela puisse signifier n'importe quel système intelligent) a toujours été synonyme d'approches basées sur la logique (systèmes experts, par exemple) plutôt que d'estimation statistique. Les statistiques, basées sur les mathématiques, ont eu une très bonne compréhension théorique, ainsi qu'une solide expérience appliquée en sciences expérimentales, où il existe un modèle scientifique clair, et des statistiques sont nécessaires pour traiter les données expérimentales limitées disponibles. L'accent a souvent été mis sur l'extraction du maximum d'informations à partir de très petits ensembles de données. de plus, il y a un parti pris pour les preuves mathématiques: vous ne serez publié que si vous pouvez prouver des choses sur votre approche. Cela a eu tendance à signifier que les statistiques ont pris du retard dans l'utilisation des ordinateurs pour automatiser l'analyse. Encore, le manque de connaissances en programmation a empêché les statisticiens de travailler sur des problèmes de grande envergure où les problèmes de calcul deviennent importants (prenez en compte les GPU et les systèmes distribués tels que Hadoop). Je pense que des domaines tels que la bioinformatique ont maintenant davantage orienté les statistiques dans cette direction. Enfin, je dirais que les statisticiens sont un groupe plus sceptique: ils ne prétendent pas que les connaissances sont découvertes grâce aux statistiques. Un scientifique émet plutôt une hypothèse et le travail du statisticien est de vérifier que l'hypothèse est corroborée par les données. L'apprentissage automatique est enseigné dans des départements cs, qui n'enseignent malheureusement pas les mathématiques appropriées: le calcul multivariable, les probabilités, les statistiques et l'optimisation ne sont pas monnaie courante ... on a de vagues concepts "glamour" tels qu'apprendre à partir d'exemples ...Eléments d'apprentissage statistique page 30. Cela a tendance à signifier qu'il y a très peu de compréhension théorique et une explosion d'algorithmes, les chercheurs pouvant toujours trouver un jeu de données sur lequel leur algorithme s'avère meilleur. Il y a donc énormément de battage médiatique alors que les chercheurs du ML recherchent la prochaine grande chose: réseaux de neurones, apprentissage en profondeur, etc. Malheureusement, les départements CS ont beaucoup plus d'argent les statisticiens plus sceptiques sont ignorés. Enfin, il y a un penchant empiriste: il existe fondamentalement une croyance sous-jacente selon laquelle si vous envoyez suffisamment de données à l'algorithme, celui-ci "apprend" les bonnes prédictions. Bien que je sois partial contre le blanchiment de capitaux, les statisticiens ont ignoré un constat fondamental: les ordinateurs peuvent révolutionner l’application des statistiques.
Il y a deux façons: a) d'automatiser l'application de tests et de modèles standard. Par exemple, exécuter une batterie de modèles (régression linéaire, forêts aléatoires, etc. en essayant différentes combinaisons d’entrées, paramètres, etc.). Cela ne s’est pas vraiment produit, même si je soupçonne que les concurrents de kaggle développent leurs propres techniques d’automatisation. b) appliquer des modèles statistiques standard à des données volumineuses: pensez par exemple à Google Translate, aux systèmes de recommandation, etc. Les modèles statistiques sous-jacents sont simples, mais l'application de ces méthodes à des milliards de points de données pose d'énormes problèmes de calcul.
L'exploration de données est l'aboutissement de cette philosophie: développer des méthodes automatisées d'extraction de connaissances à partir de données. Cependant, son approche est plus pratique: elle s’applique essentiellement aux données comportementales, où il n’existe pas de théorie scientifique globale (marketing, détection de fraude, spam, etc.) et l’objectif est d’automatiser l’analyse de grands volumes de données: Une équipe de statisticiens pourrait produire de meilleures analyses avec suffisamment de temps, mais il est plus rentable d’utiliser un ordinateur. En outre, comme l'explique D. Hand, il s'agit de l'analyse de données secondaires - des données enregistrées de toute façon plutôt que des données collectées explicitement pour répondre à une question scientifique dans un plan expérimental solide. Statistiques d'exploration de données et plus, D Hand
Donc, je résumerais que l'IA traditionnelle est basée sur la logique plutôt que sur la statistique, que l'apprentissage automatique est une statistique sans théorie et que la statistique est une statistique sans ordinateur, et que l'exploration de données consiste à développer des outils automatisés d'analyse statistique avec une intervention minimale de l'utilisateur.