Quelle est la formule exacte utilisée dans R lm()
pour le R au carré ajusté? Comment puis-je l'interpréter?
Formules ajustées au carré
Il semble exister plusieurs formules pour calculer le R au carré ajusté.
- Formule de Wherry:
- La formule de McNemar:
- Formule du Seigneur:
- Formule de Stein:
Descriptions de manuels
- Selon le manuel de Field, À la découverte de statistiques avec R (2012, p. 273), R utilise l'équation de Wherry qui "nous dit combien la variance en Y serait prise en compte si le modèle avait été dérivé de la population à partir de laquelle l'échantillon a été prélevé". Il ne donne pas la formule pour Wherry. Il recommande d'utiliser la formule de Stein (à la main) pour vérifier le niveau de validation croisée du modèle.
- Kleiber / Zeileis, Applet Econometrics with R (2008, p. 59) affirment qu'il s'agit du "R-carré ajusté de Theil" et ne disent pas exactement comment son interprétation varie du multiple du R-carré.
- Dalgaard, Introductory Statistics with R (2008, p. 113) écrit que "si vous multipliez le [R au carré ajusté] par 100%, cela peut être interprété comme"% de réduction de la variance "". Il ne dit pas à quelle formule cela correspond.
J'avais déjà pensé, et lu beaucoup, que R-squared pénalise l'ajout de variables supplémentaires au modèle. Maintenant, l'utilisation de ces différentes formules semble nécessiter différentes interprétations. J'ai également examiné une question connexe sur le débordement de pile ( Quelle est la différence entre le R carré double et le R carré ajusté dans une régression à moindres carrés à une variable? ) Et le dictionnaire statistique de la Wharton School à UPenn .
Des questions
- Quelle formule est utilisée pour r-carré ajusté par R
lm()
? - Comment puis-je l'interpréter?
ans$adj.r.squared <- 1 - (1 - ans$r.squared) * ((n - df.int)/rdf)
:, où ans $ r.squared = R ^ 2; n = n, rdf = df résiduel, df.int = intercepter df (0 ou 1).