Apprentissage des concepts statistiques à travers des exercices d'analyse de données


18

Je trouve que de simples exercices d'analyse de données peuvent souvent aider à illustrer et à clarifier des concepts statistiques. Quels exercices d'analyse de données utilisez-vous pour enseigner des concepts statistiques?

Réponses:


9

Comme je dois expliquer les méthodes de sélection des variables assez souvent, non pas dans un contexte d'enseignement, mais pour les non-statisticiens qui demandent de l'aide pour leurs recherches, j'aime cet exemple extrêmement simple qui illustre pourquoi la sélection d'une seule variable n'est pas nécessairement une bonne idée.

Si vous avez cet ensemble de données:

y      X1     x2
1       1      1
1       0      0
0       1      0
0       0      1

Il ne faut pas longtemps pour se rendre compte que X1 et X2 individuellement sont complètement non informatifs pour y (quand ils sont identiques, y est 'certain' d'être 1 - j'ignore les problèmes de taille d'échantillon ici, supposez simplement ces quatre observations pour être l'univers entier). Cependant, la combinaison des deux variables est complètement informative. En tant que tel, il est plus facile pour les gens de comprendre pourquoi ce n'est pas une bonne idée (par exemple) de ne vérifier que la valeur de p pour les modèles avec chaque variable individuelle comme régresseur.

D'après mon expérience, cela fait vraiment passer le message.


5

Coefficients de régression multiples et erreur de signe attendue

L'une de mes illustrations préférées d'un concept statistique à travers un exercice d'analyse de données est la déconstruction d'une régression multiple en plusieurs régressions bivariées.

Objectifs

  • Clarifier la signification des coefficients de régression en présence de plusieurs prédicteurs.
  • Pour illustrer pourquoi il est incorrect d '«attendre» qu'un coefficient de régression multiple ait un signe particulier en fonction de sa relation bivariée avec Y lorsque les prédicteurs sont corrélés.

Concept

Les coefficients de régression dans un modèle de régression multiple représentent la relation entre a) la partie d'une variable prédictive donnée (x1) qui n'est pas liée à toutes les autres variables prédictives (x2 ... xN) du modèle; et 2) la partie de la variable de réponse (Y) qui n'est pas liée à toutes les autres variables prédictives (x2 ... xN) du modèle. Lorsqu'il existe une corrélation entre les prédicteurs, les signes associés aux coefficients des prédicteurs représentent les relations entre ces résidus.

Exercice

  1. Générez des données aléatoires pour deux prédicteurs (x1, x2) et une réponse (y).
  2. Régresser y sur x2 et stocker les résidus.
  3. Régression x1 sur x2 et stockage des résidus.
  4. Régresser les résidus de l'étape 2 (r1) sur les résidus de l'étape 3 (r2).

Le coefficient pour l'étape 4 pour r2 sera le coefficient de x1 pour le modèle de régression multiple avec x1 et x2. Vous pouvez faire de même pour x2 en séparant x1 pour y et x2.

Voici un code R pour cet exercice.

set.seed(3338)
x1 <- rnorm(100)
x2 <- rnorm(100)
y <- 0 + 2*x1 + 5*x2 + rnorm(100)
lm(y ~ x1 + x2)  # Multiple regression Model
ry1 <- residuals(  lm( y ~ x2)  )  # The part of y not related to x2
rx1 <- residuals(  lm(x1 ~ x2)  ) # The part of x1 not related to x2
lm( ry1  ~ rx1) 
ry2 <- residuals(  lm( y ~ x1)  ) # The part of y not related to x1
rx2 <- residuals(  lm(x2 ~ x1)  ) # The part of x2 not related to x1
lm( ry2 ~ rx2)

Voici les extrants et résultats pertinents.

Call:
lm(formula = y ~ x1 + x2)

Coefficients:

(Intercept)           ***x1***           ***x2***  
   -0.02410      ***1.89527***      ***5.07549*** 

Call:
lm(formula = ry1 ~ rx1)

Coefficients:

(Intercept)          ***rx1***  
 -2.854e-17    ***1.895e+00*** 

Call:
lm(formula = ry2 ~ rx2)

Coefficients:

(Intercept)          ***rx2***  
  3.406e-17    ***5.075e+00*** 
En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.