Interprétation de la sortie de lm () de R


234

Les pages d’aide de R supposent que je sais ce que signifient ces chiffres, mais je ne les connais pas. J'essaie de comprendre intuitivement chaque chiffre ici. Je vais simplement poster le résultat et commenter ce que j'ai découvert. Il y aura peut-être des erreurs, car je vais simplement écrire ce que je suppose. J'aimerais surtout savoir ce que signifie la valeur t dans les coefficients et pourquoi ils affichent l'erreur standard résiduelle.

Call:
lm(formula = iris$Sepal.Width ~ iris$Petal.Width)

Residuals:
     Min       1Q   Median       3Q      Max 
-1.09907 -0.23626 -0.01064  0.23345  1.17532 

Ceci est un résumé en 5 points des résidus (leur moyenne est toujours égale à 0, non?). Les chiffres peuvent être utilisés (je devine ici) pour voir rapidement s'il y a de grandes valeurs aberrantes. Vous pouvez aussi déjà le voir ici si les résidus sont loin d’être distribués normalement (ils devraient être distribués normalement).

Coefficients:
                 Estimate Std. Error t value Pr(>|t|)    
(Intercept)       3.30843    0.06210  53.278  < 2e-16 ***
iris$Petal.Width -0.20936    0.04374  -4.786 4.07e-06 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1   1 

Estimations , calculées par la régression des moindres carrés. De plus, l'erreur type est . Je voudrais savoir comment cela est calculé. Je n'ai aucune idée d'où proviennent la valeur t et la valeur p correspondante. Je sais que devrait être distribué normalement, mais comment la valeur t est-elle calculée? σβi ββi^σβiβ^

Residual standard error: 0.407 on 148 degrees of freedom

1npϵTϵ , je suppose. Mais pourquoi calculons-nous cela et que nous dit-il?

Multiple R-squared: 0.134,  Adjusted R-squared: 0.1282 

Σ n i = 1 ( ^ y i - ˉ y )2R2=sy^2sy2 , qui est . Le rapport est proche de 1 si les points se trouvent sur une ligne droite et de 0 s'ils sont aléatoires. Quel est le R-carré ajusté?i=1n(yi^y¯)2i=1n(yiy¯)2

F-statistic: 22.91 on 1 and 148 DF,  p-value: 4.073e-06 

F et p pour l’ ensemble du modèle, pas seulement pour les simples comme précédemment. La valeur F est . Plus elle grandit, plus il est improbable que les n'aient aucun effet.s 2 yβi βsy^2ϵiβ


les résidus ne s'écartent pas si mal de la normalité, pourquoi pensez-vous cela?
Nico

@nico: Je pense que @Alexx Hardt parlait de façon hypothétique. C'est-à-dire qu'une fois, nous avons pu utiliser le résumé en cinq chiffres pour voir si les résidus s'écartaient de la normale
Gavin Simpson

@Gavin Simpson: vous avez raison, j'ai mal interprété la phrase. Ignorer mon commentaire précédent.
nico

9
Minuterie: Vous ne pouvez rien dire sur la normalité ou la non normalité basée uniquement sur ces 5 quantiles. Tout ce que vous pouvez dire sur la base de ce résumé est de savoir si les résidus estimés sont approximativement symétriques par rapport à zéro. Vous pouvez diviser les quantiles rapportés par l’erreur standard résiduelle estimée et comparer ces valeurs aux quantiles respectifs du N (0,1), mais l’examen d’un graphique QQ a probablement plus de sens.
Fabians

5
Une remarque ici: le modèle n'est pas , mais bien . est décrit correctement dans la réponse ci-dessous, mais il ne mentionne pas explicitement qu'il est mal interprété dans la question. Il est donc possible que quelqu'un ne remarque pas la différence. FSSmodel/SSerrorMSmodel/MSerrorF
gung

Réponses:


203

Résumé en cinq points

oui, l’idée est de donner un bref résumé de la distribution. Il devrait être à peu près symétrique par rapport à la moyenne, la médiane devrait être proche de 0, les valeurs 1Q et 3Q devraient idéalement être des valeurs approximativement similaires.

Coefficients etβi^s

Chaque coefficient du modèle est une variable aléatoire gaussienne (normale). Le est l'estimation de la moyenne de la distribution de cette variable aléatoire et l'erreur type est la racine carrée de la variance de cette distribution. C'est une mesure de l'incertitude dans l'estimation de .βi^βi^

Vous pouvez regarder comment ceux-ci sont calculés (ainsi que les formules mathématiques utilisées) sur Wikipedia . Notez que tout programme de statistiques qui se respecte ne se servira pas des équations mathématiques standard pour calculer le car leur sur un ordinateur peut entraîner une perte de précision importante dans les calculs.βi^

t -statistiques

Les statistiques sont les estimations ( ) divisées par leurs erreurs types ( ), par exemple . En supposant que vous ayez le même modèle en objet que votre Q:tβi^σi^ti=βi^σi^mod

> mod <- lm(Sepal.Width ~ Petal.Width, data = iris)

alors les rapports valeurs sont calculés comme suit:t

> tstats <- coef(mod) / sqrt(diag(vcov(mod)))
(Intercept) Petal.Width 
  53.277950   -4.786461 

coef(mod)sont les et donne les racines carrées des éléments diagonaux de la matrice de covariance des paramètres du modèle, qui sont les erreurs types des paramètres ( ).βi^sqrt(diag(vcov(mod)))σi^

La valeur p est la probabilité d'atteindre aégale ou supérieure à la valeur t absolue observée si l'hypothèse nulle ( ) était vraie, où est . Ils sont calculés comme (en utilisant d'en haut):|t|H0H0βi=0tstats

> 2 * pt(abs(tstats), df = df.residual(mod), lower.tail = FALSE)
 (Intercept)  Petal.Width 
1.835999e-98 4.073229e-06

Nous calculons donc la probabilité d'extrémité supérieure pour obtenir les valeurs nous avons obtenues à partir d'une distribution avec des degrés de liberté égaux aux degrés de liberté résiduels du modèle. Cela représente la probabilité d'obtenir une valeur supérieure aux valeurs absolues des observées . Il est multiplié par 2, car bien sûr, peut également être grand dans le sens négatif.ttttt

Erreur standard résiduelle

L'erreur standard résiduelle est une estimation du paramètre . L'hypothèse des moindres carrés ordinaires est que les résidus sont décrits individuellement par une distribution gaussienne (normale) avec une moyenne 0 et un écart type . Le rapporte à l'hypothèse de la variance constante; chaque résidu a la même variance et cette variance est égale à .σσσσ2

ajustéR2

ajusté est calculé comme suit:R2

1(1R2)n1np1

Le ajusté est la même chose que le , mais ajusté pour la complexité (c'est-à-dire le nombre de paramètres) du modèle. Étant donné un modèle avec un seul paramètre, avec un certain , si on ajoute un autre paramètre à ce modèle, le du nouveau modèle doit augmenter, même si le paramètre ajouté n'a pas de puissance statistique. Le ajusté en tient compte en incluant le nombre de paramètres dans le modèle.R2R2R2R2R2

F statistique

Le est le rapport de deux variances ( ), la variance expliquée par les paramètres du modèle (somme des carrés de régression, SSR) et la variance résiduelle ou non expliquée (somme des carrés d'erreur, SSE). Vous pouvez mieux voir cela si nous obtenons la table ANOVA du modèle via :FSSR/SSEanova()

> anova(mod)
Analysis of Variance Table

Response: Sepal.Width
             Df  Sum Sq Mean Sq F value    Pr(>F)    
Petal.Width   1  3.7945  3.7945   22.91 4.073e-06 ***
Residuals   148 24.5124  0.1656                      
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1   1

Les s sont les mêmes dans la sortie ANOVA et dans la sortie. La colonne contient les deux variances et . Nous pouvons calculer la probabilité d'obtenir un si grand sous l'hypothèse nulle d'absence d'effet, à partir d'une distribution avec 1 et 148 degrés de liberté. C'est ce qui est rapporté dans la dernière colonne du tableau ANOVA. Dans le cas simple d’un prédicteur continu unique (selon votre exemple), , c’est pourquoi les valeurs p sont identiques. Cette équivalence n'est valable que dans ce cas simple.F3,7945 / 0,1666 = 22,91 F F F = t 2 P e t a l . W i d t hsummary(mod)Mean Sq3.7945/0.1656=22.91FFF=tPetal.Width2


5
@Gavin (+1) Excellente réponse avec de jolies illustrations!
chl

2
Bon travail. Une chose que vous pourriez clarifier, en ce qui concerne le calcul des valeurs t: sqrt (diag (vcov (mod))) produit la SE des estimations. Ce sont les mêmes SE qui sont générés dans le résumé du modèle. Plus facile et plus clair de dire que t = Estimate / SEestimate. En ce sens, il n’est pas différent de toute autre valeur t.
Brett

2
(+1) C'est génial. La seule chose que j’ajouterais, c’est que la valeur est identique à pour la pente (c’est pourquoi les valeurs p sont identiques). Ceci - bien sûr - n'est pas vrai avec plusieurs variables explicatives. t 2Ft2

2
@Geai; Merci. J'ai pensé à mentionner cette équivalence aussi. Je ne savais pas trop si c'était trop détaillé ou pas? Je vais ajouter quelque chose à ce sujet dans un mois.
Gavin Simpson

2
"n'utilisera pas les équations mathématiques standard pour calculer" Que vont-ils utiliser?
SmallChess

0

Ronen Israel et Adrienne Ross (AQR) ont rédigé un très bel article sur ce sujet: Mesure de l'exposition aux facteurs: utilisations et abus .

Pour résumer (voir: p. 8),

  • En règle générale, plus le élevé, meilleur est le modèle qui explique les rendements du portefeuille.R2
  • Lorsque la statistique t est supérieure à deux, nous pouvons dire avec une confiance de 95% (ou une probabilité de se tromper de 5%) que l'estimation bêta est statistiquement différente de zéro. En d'autres termes, on peut dire qu'un portefeuille a une exposition significative à un facteur.

Le lm()résumé de R calcule la valeur p Pr(>|t|). Plus la valeur p est petite, plus le facteur est significatif. La valeur de p = 0,05 est un seuil raisonnable.


6
Les types d'anomalies dans cet article, illustrés par "Lorsque la statistique t est supérieure à deux, nous pouvons dire (avec ... une chance de 5% que nous nous trompons) que l'estimation bêta est statistiquement différente de zéro" [p . 11], sont décrits à l' adresse stats.stackexchange.com/questions/311763 et à stats.stackexchange.com/questions/26450 .
whuber
En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.