Lignes directrices pour découvrir de nouvelles connaissances dans les données


9

Je trace quelque chose pour me faire comprendre ou faire comprendre à quelqu'un d'autre. Habituellement, une question démarre ce processus, et souvent la personne qui demande espère une réponse particulière.

Comment puis-je apprendre des choses intéressantes sur les données de manière moins biaisée?

En ce moment, je suis à peu près cette méthode:

  1. Statistiques sommaires.
  2. Bande dessinée.
  3. Nuage de points.
  4. Peut-être répéter avec un sous-ensemble intéressant de données.

Mais cela ne semble pas assez méthodique ou scientifique.

Y a-t-il des lignes directrices ou des procédures à suivre qui révèlent des choses sur les données que je ne pense pas demander? Comment savoir quand j'ai fait une analyse adéquate?

Réponses:


6

Il y a tout un champ d'analyse exploratoire des données (EDA), et un excellent livre sur ce sujet intitulé Exploratory Data Analysis , par John W. Tukey.

J'aime que vous utilisiez des graphiques - il existe de nombreux autres graphiques qui peuvent être utiles, selon vos données - combien de variables? De quelle nature sont les variables (catégoriques? Numériques? Continues? Comptées? Ordinales?)

Un graphique qui est souvent utile pour les données à plusieurs variables est une matrice de nuage de points.

Vous pouvez rechercher différents types de valeurs aberrantes, qui sont souvent des points intéressants.

Mais je ne pense pas que tout ce processus puisse être rendu vraiment méthodique et scientifique - l'exploration est ce qui vient AVANT que les approches méthodiques et scientifiques puissent être introduites. Ici, je pense que l'aspect clé est le côté ludique.


(+1) Pouvez-vous fournir un lien vers le livre mentionné?
steffen

EDA du Engineering and Statistics Handbook itl.nist.gov/div898/handbook/eda/eda.htm .
Selden

Les variables @Peter Flom 13 sont produites en comparant deux ensembles de sorties produites par un programme fonctionnant sur deux ensembles d'entrées. Le programme s'exécute périodiquement. Les variables sont ordinales, catégorie, catégorie, catégorie, catégorie, nombre, nombre, nombre, nombre, numérique, numérique, nombre et nombre. Les noms sont id, machineA, inputA, machineB, inputB, new, same, missing, newP, missingP, lengthA, lengthB, scoreA, scoreB. Mais la décision de ne comparer que la sortie la plus récente est aussi ma bonne / mauvaise idée.
Selden

Le livre est en fait appelé Exploratory Data Analysis (pas EDA), il est de John W.Tukey (ma mémoire m'a trompé parce que la couverture de mon édition est étiquetée EDA) Lien: amazon.com/Exploratory-Data-Analysis-John-Tukey/dp / 0201076160 /…
Peter Flom

@selden Eh bien, l'ID n'est probablement pas une variable utile. Entre deux variables catégorielles, vous pouvez regarder des graphiques en mosaïque; entre un boxplots catégorique et un numérique, les boxplots parallèles peuvent être bons.
Peter Flom

1

Si vous avez des données chronologiques sur les séries ietime, alors il y a des "connus" et les "inconnus" attendent d'être découverts. Par exemple, si vous avez une séquence de points de données pour 10 périodes telles que 1,9,1,9,1,5,1,9,1,9, sur la base de cet échantillon, vous pouvez raisonnablement vous attendre à 1,9,1,9 , ... à se poser à l'avenir. Ce que l'analyse des données révèle, c'est qu'il y a une lecture «inhabituelle» à la période 6, même si elle se situe bien dans les limites de + -3 sigma, ce qui suggère que le DGF n'a pas tenu. Démasquer l'Inlier / Outlier nous permet de révéler des choses sur les données. Nous notons également que la valeur moyenne n'est pas la valeur attendue. Cette idée s'étend facilement à la détection de décalages moyens et / ou de tendances temporelles locales qui pouvaient être inconnus avant l'analyse des données (génération d'hypothèses). Maintenant, il est tout à fait possible que les 10 prochaines lectures soient également 1,9,1,9, 1,5,1,9,1,9 suggérant que le "5" n'est pas nécessairement fâcheux. Si nous observons un processus d'erreur à partir d'un modèle approprié qui présente une variance non constante prouvable, nous pourrions révéler l'un des états de la nature suivants: 1) les paramètres peuvent avoir changé à un moment donné dans le temps; 2. Il peut être nécessaire de procéder à une analyse pondérée (GLS); 3. Il peut être nécessaire de transformer les données via une transformation de puissance; 4. Il peut être nécessaire de modéliser réellement la variance des erreurs. Si vous disposez de données quotidiennes, une bonne analyse peut révéler qu'il existe une fenêtre de réponse (structure des pistes, contemporaine et des retards) autour de chaque jour férié reflétant un comportement cohérent / prévisible. Vous pourrez également révéler que certains jours du mois ont un effet significatif ou que les vendredis avant les vacances du lundi ont une activité exceptionnelle. 9 suggérant que le "5" n'est pas nécessairement fâcheux. Si nous observons un processus d'erreur à partir d'un modèle approprié qui présente une variance non constante prouvable, nous pourrions révéler l'un des états de la nature suivants: 1) les paramètres peuvent avoir changé à un moment donné dans le temps; 2. Il peut être nécessaire de procéder à une analyse pondérée (GLS); 3. Il peut être nécessaire de transformer les données via une transformation de puissance; 4. Il peut être nécessaire de modéliser réellement la variance des erreurs. Si vous disposez de données quotidiennes, une bonne analyse peut révéler qu'il existe une fenêtre de réponse (structure des pistes, contemporaine et des retards) autour de chaque jour férié reflétant un comportement cohérent / prévisible. Vous pourrez également révéler que certains jours du mois ont un effet significatif ou que les vendredis avant les vacances du lundi ont une activité exceptionnelle. 9 suggérant que le "5" n'est pas nécessairement fâcheux. Si nous observons un processus d'erreur à partir d'un modèle approprié qui présente une variance non constante prouvable, nous pourrions révéler l'un des états de la nature suivants: 1) les paramètres peuvent avoir changé à un moment donné dans le temps; 2. Il peut être nécessaire de procéder à une analyse pondérée (GLS); 3. Il peut être nécessaire de transformer les données via une transformation de puissance; 4. Il peut être nécessaire de modéliser réellement la variance des erreurs. Si vous disposez de données quotidiennes, une bonne analyse peut révéler qu'il existe une fenêtre de réponse (structure des pistes, contemporaine et des retards) autour de chaque jour férié reflétant un comportement cohérent / prévisible. Vous pourrez également révéler que certains jours du mois ont un effet significatif ou que les vendredis avant les vacances du lundi ont une activité exceptionnelle. n'est pas nécessairement fâcheuse. Si nous observons un processus d'erreur à partir d'un modèle approprié qui présente une variance non constante prouvable, nous pourrions révéler l'un des états de la nature suivants: 1) les paramètres peuvent avoir changé à un moment donné dans le temps; 2. Il peut être nécessaire de procéder à une analyse pondérée (GLS); 3. Il peut être nécessaire de transformer les données via une transformation de puissance; 4. Il peut être nécessaire de modéliser réellement la variance des erreurs. Si vous disposez de données quotidiennes, une bonne analyse peut révéler qu'il existe une fenêtre de réponse (structure des pistes, contemporaine et des retards) autour de chaque jour férié reflétant un comportement cohérent / prévisible. Vous pourrez également révéler que certains jours du mois ont un effet significatif ou que les vendredis avant les vacances du lundi ont une activité exceptionnelle. n'est pas nécessairement fâcheuse. Si nous observons un processus d'erreur à partir d'un modèle approprié qui présente une variance non constante prouvable, nous pourrions révéler l'un des états de la nature suivants: 1) les paramètres peuvent avoir changé à un moment donné; 2. Il peut être nécessaire de procéder à une analyse pondérée (GLS); 3. Il peut être nécessaire de transformer les données via une transformation de puissance; 4. Il peut être nécessaire de modéliser réellement la variance des erreurs. Si vous disposez de données quotidiennes, une bonne analyse peut révéler qu'il existe une fenêtre de réponse (structure des pistes, contemporaine et des retards) autour de chaque jour férié reflétant un comportement cohérent / prévisible. Vous pourrez également révéler que certains jours du mois ont un effet significatif ou que les vendredis avant les vacances du lundi ont une activité exceptionnelle. Si nous observons un processus d'erreur à partir d'un modèle approprié qui présente une variance non constante prouvable, nous pourrions révéler l'un des états de la nature suivants: 1) les paramètres peuvent avoir changé à un moment donné; 2. Il peut être nécessaire de procéder à une analyse pondérée (GLS); 3. Il peut être nécessaire de transformer les données via une transformation de puissance; 4. Il peut être nécessaire de modéliser réellement la variance des erreurs. Si vous disposez de données quotidiennes, une bonne analyse peut révéler qu'il existe une fenêtre de réponse (structure des pistes, contemporaine et des retards) autour de chaque jour férié reflétant un comportement cohérent / prévisible. Vous pourrez également révéler que certains jours du mois ont un effet significatif ou que les vendredis avant les vacances du lundi ont une activité exceptionnelle. Si nous observons un processus d'erreur à partir d'un modèle approprié qui présente une variance non constante prouvable, nous pourrions révéler l'un des états de la nature suivants: 1) les paramètres peuvent avoir changé à un moment donné; 2. Il peut être nécessaire de procéder à une analyse pondérée (GLS); 3. Il peut être nécessaire de transformer les données via une transformation de puissance; 4. Il peut être nécessaire de modéliser réellement la variance des erreurs. Si vous disposez de données quotidiennes, une bonne analyse peut révéler qu'il existe une fenêtre de réponse (structure de plomb, contemporaine et de décalage) autour de chaque jour férié reflétant un comportement cohérent / prévisible. Vous pourrez également révéler que certains jours du mois ont un effet significatif ou que les vendredis avant les vacances du lundi ont une activité exceptionnelle. Il peut être nécessaire de procéder à une analyse pondérée (GLS); 3. Il peut être nécessaire de transformer les données via une transformation de puissance; 4. Il peut être nécessaire de modéliser réellement la variance des erreurs. Si vous disposez de données quotidiennes, une bonne analyse peut révéler qu'il existe une fenêtre de réponse (structure des pistes, contemporaine et des retards) autour de chaque jour férié reflétant un comportement cohérent / prévisible. Vous pourrez également révéler que certains jours du mois ont un effet significatif ou que les vendredis avant les vacances du lundi ont une activité exceptionnelle. Il peut être nécessaire de procéder à une analyse pondérée (GLS); 3. Il peut être nécessaire de transformer les données via une transformation de puissance; 4. Il peut être nécessaire de modéliser réellement la variance des erreurs. Si vous disposez de données quotidiennes, une bonne analyse peut révéler qu'il existe une fenêtre de réponse (structure des pistes, contemporaine et des retards) autour de chaque jour férié reflétant un comportement cohérent / prévisible. Vous pourrez également révéler que certains jours du mois ont un effet significatif ou que les vendredis avant les vacances du lundi ont une activité exceptionnelle. structure contemporaine et lag) autour de chaque jour férié reflétant un comportement cohérent / prévisible. Vous pourrez également révéler que certains jours du mois ont un effet significatif ou que les vendredis avant les vacances du lundi ont une activité exceptionnelle. structure contemporaine et lag) autour de chaque jour férié reflétant un comportement cohérent / prévisible. Vous pourrez également révéler que certains jours du mois ont un effet significatif ou que les vendredis avant les vacances du lundi ont une activité exceptionnelle.


0

Le datamining pourrait être divisé en deux catégories. Si vous souhaitez mesurer l'effet d'un ensemble de données / variables sur une variable spécifique, cela serait considéré comme un apprentissage supervisé. Pour un apprentissage approfondi et exploratoire sans objectif, vous subissez un apprentissage non supervisé.

La représentation graphique et l'analyse statistique des données (comprendre les distributions et gagner en intuition) sont les premières étapes.

En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.