La science des données est-elle la même que l'exploration de données?


22

Je suis sûr que la science des données, comme cela sera discuté dans ce forum, a plusieurs synonymes ou au moins des domaines connexes où de grandes données sont analysées.

Ma question particulière concerne le Data Mining. J'ai suivi un cours de troisième cycle en Data Mining il y a quelques années. Quelles sont les différences entre la science des données et l'exploration de données et en particulier que devrais-je examiner de plus pour devenir compétent en exploration de données?


En ce qui concerne la deuxième partie de votre question, j'ai proposé une discussion dans meta: meta.datascience.stackexchange.com/questions/5/… La manière dont cela est reçu pourrait déterminer si votre préoccupation en matière de compétence est responsable ou dans les limites.
Clayton

Réponses:


25

@statsRus commence à jeter les bases de votre réponse dans une autre question /datascience/1/what-characterises-the-difference-between-data-science-and-statistics :

  • Collecte de données : grattage Web et enquêtes en ligne
  • Manipulation des données : recodage des données en désordre et extraction de sens à partir des données des réseaux linguistiques et sociaux
  • Échelle de données : travailler avec des ensembles de données extrêmement volumineux
  • Exploration de données : trouver des modèles dans de grands ensembles de données complexes, en mettant l'accent sur les techniques algorithmiques
  • Communication des données : aider à transformer les données "lisibles par la machine" en informations "lisibles par l'homme" via la visualisation

Définition

peut être considérée comme un élément (ou un ensemble de compétences et d'applications) dans la boîte à outils du data scientist. J'aime la façon dont il sépare la définition de l'exploitation minière de la collecte dans une sorte de jargon spécifique au métier.

Cependant, je pense que l'exploration de données serait synonyme de collecte de données dans une définition familière anglais-américain.

Quant à savoir où aller pour devenir compétent? Je pense que cette question est trop large telle qu'elle est actuellement formulée et recevrait des réponses qui sont principalement basées sur l'opinion. Si vous pouviez affiner votre question, il serait peut-être plus facile de voir ce que vous demandez.


11

Ce que @Clayton a publié me semble juste, pour ces termes, et pour que le "data mining" soit un outil du data scientist. Cependant, je n'ai pas vraiment utilisé le terme «collecte de données» et cela ne me semble pas synonyme de «data mining».

Ma propre réponse à votre question: non , les termes ne sont pas les mêmes. Les définitions peuvent être vagues dans ce domaine, mais je n'ai pas vu ces termes utilisés de manière interchangeable. Dans mon travail, nous les utilisons parfois pour différencier les objectifs ou les méthodologies. Pour nous, consiste davantage à tester une hypothèse, et généralement les données ont été collectées juste à cette fin. consiste davantage à passer au crible les données existantes, à rechercher une structure et peut-être à générer des hypothèses. L'exploration de données peut commencer par une hypothèse, mais elle est souvent très faible ou générale, et peut être difficile à résoudre avec confiance. (Creusez assez longtemps et vous trouverez quelque chose , même si cela peut se révéler être de la pyrite.)

Cependant, nous avons également utilisé la «science des données» comme un terme plus large, pour inclure «l'exploration de données». Nous parlons également de «modélisation des données», qui consiste pour nous à trouver un modèle pour un système d'intérêt, basé sur des données ainsi que d'autres connaissances et objectifs. Parfois, cela signifie essayer de trouver les mathématiques qui expliquent le système réel, et parfois cela signifie trouver un modèle prédictif qui est assez bon pour un but.


8

Ma réponse serait non. Je considère que l'exploration de données est l'un des domaines divers de la science des données. L'exploration de données est principalement envisagée pour produire des questions plutôt que pour y répondre. Il est souvent qualifié de "détection de quelque chose de nouveau", par rapport à la science des données, où le scientifique des données essaie de résoudre des problèmes complexes pour être en mesure d'atteindre ses résultats finaux. Cependant, les deux termes ont de nombreux points communs entre eux. Par exemple ... si vous avez une terre agricole où vous cherchez à trouver les plantes affectées ... Ici, l'exploration de données spatiales joue un rôle clé dans ce travail. Il y a de fortes chances que vous vous retrouviez non seulement à trouver les plantes affectées dans le pays mais aussi dans quelle mesure ils sont affectés ....... c'est quelque chose qui n'est pas possible avec la science des données.


Votre réponse est très agréable, et ce serait bien aussi si vous ajoutiez un petit exemple, afin de souligner votre point sur l'exploration de données étant plus liée à la détection de quelque chose de nouveau plutôt qu'à la résolution et à l'obtention de résultats .
Rubens

6

Il existe de nombreux chevauchements entre l'exploration de données et la datascience. Je dirais que les personnes ayant un rôle de datamining sont concernées par la collecte de données et l'extraction de fonctionnalités à partir d'ensembles de données non filtrés, non organisés et principalement bruts / sauvages. Certaines données très importantes peuvent être difficiles à extraire, non pas pour les problèmes d'implémentation mais parce qu'elles peuvent avoir des artefacts étrangers.

Par exemple. si j'avais besoin que quelqu'un examine les données financières des déclarations de revenus écrites dans les années 70 qui ont été numérisées et lues par machine pour savoir si les gens économisaient plus sur l'assurance automobile; un dataminer serait la personne à obtenir.

Si j'avais besoin que quelqu'un examine l'influence du profil Twitter de Nike dans les tweets du Brésil et identifie les principales caractéristiques positives du profil, je chercherais un datascientiste.

En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.