La meilleure façon de comprendre ces termes est de faire un calcul de régression à la main. J'ai écrit deux réponses étroitement liées ( ici et ici ), mais elles peuvent ne pas vous aider pleinement à comprendre votre cas particulier. Mais lisez-les néanmoins. Peut-être qu'ils vous aideront également à mieux conceptualiser ces termes.
Dans une régression (ou ANOVA), nous construisons un modèle basé sur un échantillon de données qui nous permet de prédire les résultats d'une population d'intérêt. Pour ce faire, les trois composantes suivantes sont calculées dans une régression linéaire simple à partir de laquelle les autres composantes peuvent être calculées, par exemple les carrés moyens, la valeur F, le R2 (également le R 2 ajustéR2 ) et l'erreur-type résiduelle ( RSE ):
- sommes totales des carrés ( SStotal )
- sommes résiduelles de carrés ( SSresidual )
- modéliser des sommes de carrés ( SSmodel )
Chacun évalue dans quelle mesure le modèle décrit les données et représente la somme des distances au carré entre les points de données et le modèle ajusté (illustrées par des lignes rouges dans le graphique ci-dessous).
Le SStotal évalue l'adéquation de la moyenne avec les données. Pourquoi le méchant? Parce que la moyenne est le modèle le plus simple que nous pouvons adapter et sert donc de modèle auquel la ligne de régression des moindres carrés est comparée. Ce tracé utilisant l' cars
ensemble de données montre que:
Le SSresidual
Le SSmodel compare à quel point la droite de régression est comparée à la moyenne (c.-à-d. La différence entre le SStotal et le SSresidual
Pour répondre à vos questions, calculons d'abord les termes que vous souhaitez comprendre en commençant par le modèle et la sortie comme référence:
# The model and output as reference
m1 <- lm(dist ~ speed, data = cars)
summary(m1)
summary.aov(m1) # To get the sums of squares and mean squares
Les sommes des carrés sont les distances au carré des points de données individuels au modèle:
# Calculate sums of squares (total, residual and model)
y <- cars$dist
ybar <- mean(y)
ss.total <- sum((y-ybar)^2)
ss.total
ss.residual <- sum((y-m1$fitted)^2)
ss.residual
ss.model <- ss.total-ss.residual
ss.model
Les carrés moyens sont les sommes des carrés moyennes des degrés de liberté:
# Calculate degrees of freedom (total, residual and model)
n <- length(cars$speed)
k <- length(m1$coef) # k = model parameter: b0, b1
df.total <- n-1
df.residual <- n-k
df.model <- k-1
# Calculate mean squares (note that these are just variances)
ms.residual <- ss.residual/df.residual
ms.residual
ms.model<- ss.model/df.model
ms.model
Mes réponses à vos questions:
Q1:
- Il s'agit donc en fait de la distance moyenne des valeurs observées à la ligne lm?
RSEMSresidual
# Calculate residual standard error
res.se <- sqrt(ms.residual)
res.se
SSresidualMSresidual SSresidualRSEreprésente la distance moyenne des données observées du modèle. Intuitivement, cela est également parfaitement logique, car si la distance est plus petite, l'ajustement de votre modèle est également meilleur.
Q2:
- Maintenant, je suis confus parce que si le RSE nous indique dans quelle mesure nos points observés s'écartent de la ligne de régression, un RSE faible nous indique en fait "votre modèle s'adapte bien sur la base des points de données observés" -> donc la qualité de nos modèles , alors quelle est la différence entre R au carré et RSE?
R2SSmodelSStotal :
# R squared
r.sq <- ss.model/ss.total
r.sq
R2SStotalSSmodel .
RSER2RSE vous dit quelque chose sur l'inexactitude du modèle (dans ce cas la droite de régression) compte tenu des données observées.
R2 d'autre part vous indique la variation expliquée par le modèle (c'est-à-dire la droite de régression) par rapport à la variation qui a été expliquée par la moyenne seule (c'est-à-dire le modèle le plus simple).
Q3:
- Est-il vrai que nous pouvons avoir une valeur F indiquant une relation forte qui est NON LINÉAIRE de sorte que notre RSE est élevé et notre R au carré est faible
FMSmodelMSresidual
# Calculate F-value
F <- ms.model/ms.residual
F
# Calculate P-value
p.F <- 1-pf(F, df.model, df.residual)
p.F
F
Votre troisième question est un peu difficile à comprendre, mais je suis d'accord avec la citation que vous avez fournie.