Quels sont les bons ensembles de données pour illustrer des aspects particuliers de l'analyse statistique?

16

Je me rends compte que c'est subjectif, mais j'ai pensé que ce serait bien de parler de nos ensembles de données préférés et de ce que nous pensons les rend intéressants. Il y a une multitude de données là-bas, et avec toutes les API (par exemple, Datamob ) ainsi que les ensembles de données classiques (par exemple, les données R ), je pense que cela pourrait avoir des réponses très intéressantes.

Par exemple, j'ai toujours aimé les ensembles de données comme l'ensemble de données "Boston Housing" (malgré les implications regrettables) et "mtcars" pour leur polyvalence. D'un point de vue pédagogique, on peut montrer les mérites d'une grande variété de techniques statistiques les utilisant; et le jeu de données iris d'Anderson / Fisher aura toujours une place dans mon cœur.

Pensées?

dataset

— DA
source

2

Celui qui est utilisé pour ma thèse, car il me décrochera un doctorat si je l'analyse correctement>.>

— Fomite

3

Bienvenue sur Cross Validated! Il est conçu comme un site de questions / réponses pour les questions avec de vraies réponses, pas comme un forum de discussion. En tant que tel, je ne pense pas que ce soit le type de question que nous souhaitons sur ce site. Veuillez consulter la FAQ .

— Michael McGowan

4

Je suis conscient qu'il est conçu comme un Q & A, mais avec des questions comme "Quelle est votre caricature de statistiques préférée?" étant voté haut, j'ai pensé que ce ne serait pas terriblement inapproprié. Surtout sur le plan pédagogique, si quelqu'un essaie de se renseigner sur l'analyse des données et les techniques d'exploration, il pourrait être utile d'obtenir des commentaires sur des ensembles de données publics qui offrent une structure riche et qui ont une grande quantité d'histoire et de recherche derrière eux.

— DA

4

Je suis enclin à laisser la communauté décider si cela doit être fermé (car non constructif) ou non, bien que j'ajouterais que des réponses approfondies et argumentatives pourraient bien servir de support à de futures questions sur des aspects particuliers de l'analyse des données. Je suis en train de convertir cela en CW en attendant, car, évidemment, il n'y a pas de meilleure réponse unique.

— chl

2

Cette question et leurs réponses me sont très utiles. Veuillez ne pas supprimer.

— dsign

12

L'étude sur le faible poids de naissance

Il s'agit de l'un des ensembles de données du manuel de Hosmer et Lemeshow sur la régression logistique appliquée (2000, Wiley, 2e éd.). Le but de cette étude prospective était d'identifier les facteurs de risque associés à l'accouchement d'un bébé de faible poids à la naissance (pesant moins de 2 500 grammes). Des données ont été recueillies sur 189 femmes, dont 59 avaient un bébé de faible poids à la naissance et 130 avaient un bébé de poids normal à la naissance. Quatre variables jugées importantes étaient l'âge, le poids du sujet à ses dernières menstruations, la race et le nombre de visites chez le médecin au cours du premier trimestre de la grossesse.

Il est disponible en R as data(birthwt, package="MASS")ou en Stata with webuse lbw. Une version texte apparaît ici: lowbwt.dat ( description ). Il convient de noter qu'il existe plusieurs versions de cet ensemble de données, car il a été étendu à une étude cas-témoins (1-1 ou 1-3, appariés selon l'âge), comme l'illustrent Hosmer et Lemeshow dans le chapitre 7 de l'ALR.

J'avais l'habitude d'enseigner des cours d'introduction basés sur cet ensemble de données pour les raisons suivantes:

Elle est intéressante d'un point de vue historique et épidémiologique (les données ont été collectées en 1986); aucun antécédent en médecine ou en statistique n'est requis pour comprendre les principales idées et quelles questions peuvent être posées à partir de cette étude.
Plusieurs variables de types mixtes (continu, ordinal et nominal) sont disponibles, ce qui facilite la présentation des tests d'association de base (test t, ANOVA, -test pour les tableaux bidirectionnels, odds-ratio, Cochrane et Armitage test de tendance, etc.). De plus, le poids de naissance est disponible en tant que mesure continue ainsi qu'en tant qu'indicateur binaire (supérieur ou inférieur à 2,5 kg): nous pouvons commencer à construire des modèles linéaires simples, suivis d'une régression multiple (avec des prédicteurs d'intérêt sélectionnés à partir d'une analyse exploratoire préalable), puis passer à GLM (régression logistique), discutant éventuellement du choix d'un seuil. $\chi^2$
Il permet de discuter de différentes perspectives de modélisation (approches explicatives ou prédictives), et de l'implication du schéma d'échantillonnage lors du développement de modèles (stratification / cas appariés).

Autres points qui peuvent être soulignés, en fonction du public et du niveau d'expertise avec les logiciels statistiques ou les statistiques en général.

Quant à l'ensemble de données disponible dans R, les prédicteurs catégoriels sont notés sous forme d'entiers (par exemple, pour l'origine ethnique de la mère, nous avons «1» = blanc, «2» = noir, «3» = autre), malgré le fait que l'ordre naturel de certains prédicteurs (par exemple, nombre de travaux prématurés précédents ou nombre de visites chez le médecin) ou l'utilisation d'étiquettes explicites (c'est toujours une bonne idée d'utiliser «oui» / «non» au lieu de 1/0 pour les variables binaires, même si cela ne fonctionne pas » t changer quoi que ce soit dans la matrice de conception!) sont tout simplement absents. En tant que tel, il est facile de discuter des problèmes qui peuvent être soulevés en ignorant les niveaux ou les unités de mesure dans l'analyse des données.
Les variables de types mixtes sont intéressantes lorsqu'il s'agit de faire une analyse exploratoire et de discuter du type d'affichages graphiques appropriés pour résumer les relations univariées, bivariées ou trivariées. De même, produire de beaux tableaux récapitulatifs, et plus généralement des rapports, est un autre aspect intéressant de cet ensemble de données (mais la Hmisc::summary.formulacommande le rend si facile sous R).
Hosmer et Lemeshow ont rapporté que les données réelles ont été modifiées pour protéger la confidentialité des sujets (p. 25). Il pourrait être intéressant de discuter des problèmes de confidentialité des données, comme cela a été fait dans l'un de nos précédents Journal Club , mais consultez sa transcription . (Je dois admettre que je n'entre jamais dans les détails avec ça.)
Il est facile d'introduire des valeurs manquantes ou des valeurs erronées (qui sont des problèmes courants dans la vie réelle d'un statisticien), ce qui conduit à discuter (a) de leur détection via le livre de codes ( Hmisc::describeou Stata codebook) ou des graphiques exploratoires (tracez toujours vos données en premier!) , et (b) une éventuelle correction (imputation de données, suppression par liste ou mesure d'association par paire, etc.).

— chl
source

+1 Merci d'avoir fourni une réponse exemplaire qui montre que ce fil peut être utile et fournit une norme d'exposition que d'autres réponses peuvent (et devraient) viser.

— whuber

C'est fantastique et c'est exactement ce que je cherchais en posant la question. Je vous remercie pour vos précieuses informations.

— DA

5

Bien sûr, les ensembles de données Anscombe 4 sont très bons pour l'enseignement - ils ont l'air très différents, mais ont des propriétés statistiques simples identiques.

Je suggère également des jeux de données KDD Cup http://www.kdd.org/kddcup/ parce qu'ils ont été bien étudiés et qu'il existe de nombreuses solutions, afin que les étudiants puissent comparer leurs résultats et voir comment ils se classent.

Dans mon cours d'exploration de données, j'ai fourni un concours d'ensembles de données Microarray qui peut être utilisé par les professeurs http://www.kdnuggets.com/data_mining_course/

— Gregory Piatetsky
source

Pour d'autres ensembles de données qui ont été conçus à des fins pédagogiques d'une manière similaire au Quatuor Anscombe, voir cette question .

— Silverfish

3

Beaucoup de mes cours d'analyse statistique à Cal Poly ont utilisé le jeu de données "Iris" qui, déjà dans R. Il a des variables catégorielles et des variables hautement corrélées.

— Kurtis Voris
source

Pourriez-vous développer vos derniers points: en quoi cet ensemble de données aide-t-il à enseigner les statistiques? (AFAICT, l'ensemble de données iris n'a qu'une seule variable catégorielle, à savoir la classe iris.)

— chl

Voici un fil entièrement consacré à l' utilisation du jeu de données Iris dans l'enseignement .

— Silverfish

3

L'ensemble de données Titanic utilisé par Harrell dans "Stratégies de modélisation de régression". J'utilise une version simplifiée de son analyse pour expliquer la régression logistique, expliquer la survie en utilisant le sexe, la classe et l'âge.

L' ensemble de données Loyn discuté dans «Conception expérimentale et analyse de données pour les biologistes» par Gerry Quinn et Mick Keough contient de beaux problèmes nécessitant une transformation pour une régression linéaire multiple.

— Luis Apiolaza
source