Successeur moderne de l'analyse exploratoire des données par Tukey?


52

J'ai lu le livre de Tukey "Exploratory Data Analysis". Écrit en 1977, le livre met l’accent sur les méthodes papier / crayon. Existe-t-il un successeur plus «moderne» qui prenne en compte le fait que nous pouvons maintenant tracer instantanément de grands ensembles de données?


cela devrait-il être un wiki de la communauté?
richiemorrisroe

Ce n'est pas clair pour moi si cela devrait être CW. Il n’ya peut-être pas de bonne réponse; il peut y avoir une réponse claire et exceptionnelle; nous pourrions générer une longue liste de réponses efficaces. Voyons ce qui se passe.
whuber

4
C'est une bonne question, biofreezer. Je voulais juste faire remarquer qu'il existe des analogies étroites avec d'autres méthodes de travail. Mon stylo préféré est EDA, le stylo et le papier, comme les outils manuels, comme les outils manuels, comme le travail du bois. (Le travail du bois "moderne" utilise de nombreux outils électriques, tels que des scies de table et des routeurs, qui permettent même aux débutants d'obtenir des résultats acceptables en moins de temps. Cependant, ces outils génèrent également des milliers de doigts et de membres manquants chaque année. Ceux qui apprennent à utiliser des outils manuels généralement apprendre à travailler mieux et plus efficacement, même quand ils utilisent des outils électriques.)
whuber

4
Oui, le travail du bois est une belle analogie (chiffres manquants, chiffres manquants). Voir aussi software-carpentry.org .
denis

Réponses:






4

Il convient de mentionner ici l' exploration de données en génie, en sciences et en médecine de Ronald Pearson . Son lectorat principal semble être des scientifiques qui n’ont pas peur des mathématiques et qui souhaiteraient connaître davantage de statistiques. C'est un groupe assez important et un groupe bien représenté ici. C'est un peu bizarre et décalé, mais cela couvre beaucoup de terrain et inclut beaucoup de conseils judicieux. Tukey n'est pas revisité dans le sens où il propose de nombreuses idées nouvelles, mais il peut être enrichissant d'étudier, même si vous pensez que vous êtes un peu pervers.

Ce livre semble avoir attiré très peu d'attention, très probablement parce qu'il est très coûteux, qu'il ne convient évidemment pas comme texte de cours et qu'il n'est pour l'instant disponible que sous forme de livre relié. Mais il est intelligent, lisible et exempt de la corbeille des manuels d’introduction modernes (pages et pages d’exercices élémentaires, icônes idiotes, photos gratuites de jeunes heureux, mise en page compliquée avec des boîtes, etc.).



0

Deux autres bons livres à lire sont Beautiful Visualization et Beautiful Data. Ce sont des livres édités, il existe d’excellents exemples d’exploration de données à l’aide de graphiques, ainsi que des chapitres absolument effroyables.

Un autre livre qui contient de bons exemples d’utilisation de ggplot2 est un nouveau de Winston Chang


1
Je veux juste vérifier, Di, au cas où une faute de frappe subtile se glisserait: est-ce que vous vouliez peut-être écrire "attrayant" au lieu de "épouvantable"? Bien que les deux aient du sens dans ce contexte, l’apparition de ce dernier - sans autre explication - est plutôt une surprise!
whuber

2
horrible était correct - c'est un sac mélangé - les volumes édités sont souvent
Dianne Cook

Je suis surpris de ces recommandations. J'ai trouvé les deux livres plutôt décevants (longs sur guff, courts sur les graphiques). Malheureusement, O'Reilly, que j'ai rencontré pour la première fois en tant qu'éditeur de livres Unix remarquablement bons, semble avoir un contrôle de qualité très inégal pour les livres, même sur des statistiques à distance.
Nick Cox

J'aime les deux livres et je sens vraiment que ce sont des contributions substantielles. Winston Chang a beaucoup de détails de base sur le traçage avec ggplot2. C'est une bonne référence pour les débutants. Cela ne vous dit pas grand-chose de la raison pour laquelle vous feriez ces intrigues, mais la plupart des choses ont du bon sens pour le but recherché, d'après les textes que j'ai lus. The Beautiful Visualization comporte des chapitres très impressionnants, abordant des problèmes difficiles tels que la visualisation de wikipedia, des données volumineuses, de nombreuses complexités, et passant par le processus de réflexion / les décisions prises pour réaliser les parcelles.
Dianne Cook

Juste au cas où mon commentaire serait ambigu: je parlais des "beaux" livres. Le livre de Winston Chang est gentil et utile.
Nick Cox

0

Je pense à Comprendre les analyses robustes et exploratoires de Hoaglin, Mosteller et Tukey, le volume connexe Exploration des tableaux de données et des formes en tant que suivi technique de l’EDA. Je vois aussi l'analyse et la régression des données, un deuxième cours de statistique de Mosteller et Tukey, faisant suite à l'AED. Les divers livres de Cleveland mentionnés ci-dessus sont des trésors.

En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.