Tracés résiduels: pourquoi tracer en fonction des valeurs ajustées et non des valeurs

Dans le contexte de la régression OLS, je comprends qu'un tracé résiduel (vs valeurs ajustées) est conventionnellement considéré pour tester la variance constante et évaluer la spécification du modèle. Pourquoi les résidus sont-ils tracés par rapport aux ajustements, et non par les valeurs ? En quoi les informations diffèrent-elles de ces deux graphiques? $Y$

Je travaille sur un modèle qui a produit les parcelles résiduelles suivantes:

entrez la description de l'image ici

Ainsi, le tracé par rapport aux valeurs ajustées semble bon au premier coup d'œil, mais le deuxième tracé par rapport à la valeur a un motif. Je me demande pourquoi un modèle aussi prononcé ne se manifesterait pas également dans le graphique résiduel vs ajustement ... $Y$

$Y$

$^2$

regression residuals

— Mac
source

J'ai pris la liberté de peaufiner le titre pour qu'il corresponde un peu plus à votre intention. Même parmi les économistes (vous en êtes peut-être un), «IV» a une autre signification de variable instrumentale, bien qu'il n'y ait aucune ambiguïté dans ce cas. Pour une meilleure communication entre plusieurs sciences statistiques, certains d'entre nous découragent les abréviations utilisées localement telles que DV (qui pour certains signifie encore Deo volente ) et IV en faveur de termes évocateurs tels que réponse ou résultat d'une part et prédicteur ou covariable sur la autre. Je sais que c'est un détail dans votre question, mais il a été bien répondu.

— Nick Cox

Réponses:

Par construction, le terme d'erreur dans un modèle OLS n'est pas corrélé avec les valeurs observées des covariables X. Cela sera toujours vrai pour les données observées même si le modèle produit des estimations biaisées qui ne reflètent pas les vraies valeurs d'un paramètre car une hypothèse du modèle est violée (comme un problème de variable omise ou un problème de causalité inverse). Les valeurs prévues sont entièrement fonction de ces covariables et ne sont donc pas non plus corrélées avec le terme d'erreur. Ainsi, lorsque vous tracez des résidus par rapport à des valeurs prédites, ils doivent toujours sembler aléatoires car ils ne sont en effet pas corrélés par la construction de l'estimateur. En revanche, il est tout à fait possible (et même probable) que le terme d'erreur d'un modèle soit corrélé avec Y dans la pratique. Par exemple, avec une variable X dichotomique, plus le vrai Y est éloignéE(Y | X = 1)ou E(Y | X = 0)alors plus le résidu sera grand. Voici la même intuition avec les données simulées dans R où nous savons que le modèle est non biaisé car nous contrôlons le processus de génération des données:

rm(list=ls())
set.seed(21391209)

trueSd <- 10
trueA <- 5
trueB <- as.matrix(c(3,5,-1,0))
sampleSize <- 100

# create independent x-values
x1 <- rnorm(n=sampleSize, mean = 0, sd = 4)
x2 <-  rnorm(n=sampleSize, mean = 5, sd = 10)
x3 <- 3 + x1 * 4 + x2 * 2 + rnorm(n=sampleSize, mean = 0, sd = 10)
x4 <- -50 + x1 * 7 + x2 * .5 + x3 * 2  + rnorm(n=sampleSize, mean = 0, sd = 20)
X = as.matrix(cbind(x1,x2,x3,x4))


# create dependent values according to a + bx + N(0,sd)
Y <-  trueA +  X %*%  trueB  +rnorm(n=sampleSize,mean=0,sd=trueSd)


df = as.data.frame(cbind(Y,X))
colnames(df) <- c("y", "x1", "x2", "x3", "x4")
ols = lm(y~x1+x2+x3+x4, data = df)
y_hat = predict(ols, df)
error = Y - y_hat
cor(y_hat, error) #Zero
cor(Y, error) #Not Zero

Nous obtenons le même résultat de corrélation nulle avec un modèle biaisé, par exemple si nous omettons x1.

ols2 = lm(y~x2+x3+x4, data = df)
y_hat2 = predict(ols2, df)
error2 = Y - y_hat2
cor(y_hat2, error2) #Still zero
cor(Y, error2) #Not Zero

— Michael
source

Utile, mais la première phrase pourrait être réécrite pour plus de clarté. La «construction» produit les résidus; le terme d'erreur est considéré comme existant et existant avant le calcul. De même, je dirais que ce sont les estimations qui sont construites, et non l'estimateur, qui est la méthode utilisée pour les construire.

— Nick Cox

Mais alors pourquoi regardons-nous même le graphique résiduel (vs ajustements)? Quel est le but diagnostique de ce complot? Je suis nouveau sur le site. Dois-je marquer Michael ou obtient-il ce commentaire automatiquement? Mon commentaire s'appliquerait également à la réponse @Glen_b ci-dessous. Les deux réponses aident ma compréhension. Merci.

— Mac

... car ils peuvent révéler une autre structure. Le manque de corrélation entre le résiduel et l'ajustement ne signifie pas que d'autres choses ne peuvent pas se produire aussi. Si vous croyez que votre modèle est parfait, vous ne croirez pas que cela soit possible ... En pratique, vous devez vérifier d'autres types de structure.

— Nick Cox

@Mac, je vais être honnête et dire que je ne regarde jamais ces parcelles. Si vous essayez de faire une inférence causale, vous devriez réfléchir aux problèmes de variables omis et inverser les problèmes de causalité conceptuellement. L'un ou l'autre problème pourrait survenir et vous ne seriez pas en mesure de le regarder à partir de ces graphiques car il s'agit de problèmes d'équivalence d'observation. Si vous ne vous souciez que de la prédiction, vous devez réfléchir et tester hors échantillon la qualité des prédictions de votre modèle hors échantillon (sinon ce n'est pas une prédiction).

— Michael

@NickCox Oui, je veux dire le terme d'erreur estimé par le modèle et non la vraie valeur du paramètre.

— Michael

Deux faits que je suppose que vous êtes content de moi en déclarant:

$y_i = \hat{y}_i+\hat{e}_i$

$\text{Cov}(\hat{y}_i,\hat{e}_i)=0$

Alors:

$\text{Cov}(y_i,\hat{e}_i)=\text{Cov}(\hat{y}_i+\hat{e}_i,\hat{e}_i)$

$\qquad=\text{Cov}(\hat{y}_i,\hat{e}_i) +\text{Cov}(\hat{e}_i,\hat{e}_i)$

$\qquad=0 +\sigma^2_e$

$\qquad=\sigma^2_e$

Ainsi, bien que la valeur ajustée ne soit pas corrélée avec le résidu, l'observation l' est .

En effet, cela est dû au fait que l'observation et le résidu sont tous deux liés au terme d'erreur.

Cela rend généralement un peu plus difficile l'utilisation du tracé résiduel à des fins de diagnostic.

— Glen_b -Reinstate Monica
source