Est-il judicieux d'étudier des graphiques de résidus par rapport à la variable dépendante?

11

J'aimerais savoir s'il est logique d'étudier les graphiques des résidus par rapport à la variable dépendante lorsque j'ai une régression univariée. Si cela a du sens, que signifie une forte corrélation croissante linéaire entre les résidus (sur l'axe des y) et les valeurs estimées de la variable dépendante (sur l'axe des x)?

entrez la description de l'image ici

regression residuals

— Luigi
source

3

Je ne sais pas ce que vous entendez par «corrélation forte, linéaire et croissante». Pouvez-vous montrer l'intrigue? Il est parfaitement raisonnable de représenter les résidus par rapport aux valeurs ajustées. En général, vous voulez qu'il n'y ait pas de relation - une ligne horizontale plate passant par le centre. De plus, vous souhaitez que la dispersion verticale des résidus soit constante du côté gauche de votre tracé vers la droite.

— gung - Rétablir Monica

Salut. Merci pour votre réponse. Voici l'intrigue: img100.imageshack.us/img100/7414/bwages.png

— Luigi

C'est déroutant. Permettez-moi de m'assurer que je comprends: vous avez exécuté un modèle de régression, puis tracé les résidus par rapport aux valeurs ajustées, et c'est ce que vous avez obtenu, n'est-ce pas? Ça ne devrait pas ressembler à ça. Pouvez-vous modifier votre question et coller le code que vous avez utilisé pour le modèle et l'intrigue?

— gung - Rétablir Monica

Tu as bien compris. Je suis désolé, mais je ne sais pas comment récupérer le code, j'ai exécuté la régression et tracé les résidus avec le programme Gretl.

— Luigi

2

Je n'ai pas vu initialement le commentaire de @ mark999 lorsque j'ai écrit ma réponse ci-dessous. Je pense que ses soupçons sont corrects, qu'il s'agit de résidus par rapport aux valeurs y. Luigi, refaites votre graphique - n'essayez pas de l'interpréter lorsque vous vous trompez sur les variables.

— Michael Bishop

12

Supposons que vous ayez la régression , où . Ensuite, . Plus la valeur élevée, plus le résidu est important. Au contraire, un tracé des résidus contre ne devrait montrer aucune relation systématique. De plus, la valeur prédite devrait être approximativement --- la même pour chaque observation. Si toutes les valeurs prévues sont à peu près les mêmes, elles ne doivent pas être corrélées avec les erreurs. $y_i = \beta_0 + \beta_1 x_i + \epsilon_i$ $\beta_1 \approx 0$ $y_i - \beta_0 \approx \epsilon_i$ $y$ $x$ $\hat{y}_i$ $\hat{\beta}_0$

Ce que l'intrigue me dit, c'est que et sont essentiellement indépendants (bien sûr, il existe de meilleures façons de le montrer). Faites-nous savoir si votre coefficient n'est pas proche de 0. $x$ $y$ $\hat{\beta}_1$

Pour un meilleur diagnostic, utilisez un tracé des résidus par rapport au salaire prévu ou à la valeur . Vous ne devez pas observer un motif distinct dans ces graphiques. $x$

Si vous voulez une petite démonstration R, c'est parti:

y      <- rnorm(100, 0, 5)
x      <- rnorm(100, 0, 2)
res    <- lm(y ~ x)$residuals
fitted <- lm(y ~ x)$fitted.values
plot(y, res)
plot(x, res)
plot(fitted, res)

— Charlie
source

Cela ne signifie pas que, uniquement en raison de , il est possible que le modèle ait besoin de plus de variables explicatives, telles que des termes polynomiaux.

β_{1} = 0

$\beta_1=0$

— Biostat

5

En supposant que le modèle estimé est correctement spécifié ...

Notons , la matrice est une matrice de projection, donc et . $P_X=X(X'X)^{-1}X'$ $P_X$ $P_X^2=P_X$ $P_X'=P_X$

$Cov(\hat{Y},\hat{e})=Cov(P_XY,(I-P_X)Y)=P_XCov(Y,Y)(I-P_X)'=\sigma^2P_X(I-P_X)=0$ .

Ainsi, le nuage de points des résidus par rapport à la variable dépendante prévue ne devrait montrer aucune corrélation.

Mais!

$Cov(Y,\hat{e})=Cov(Y,(I-P_X)Y)=Cov(Y,Y)(I-P_X)'=\sigma^2(I-P_X)$ .

La matrice est une matrice de projection, ses valeurs propres sont 0 ou +1, elle est semi-définie positive. Il devrait donc avoir des valeurs non négatives sur la diagonale. Ainsi, le nuage de points des résidus par rapport à la variable dépendante d'origine devrait montrer une corrélation positive. $\sigma^2(I-P_X)$

Autant que je sache, Gretl produit par défaut le graphique des résidus par rapport à la variable dépendante d'origine (pas celle prédite!).

— Roah
source

J'apprécie la possibilité différente. C'est là que certaines connaissances de Gretl sont utiles. Je me demande cependant à quel point il est plausible que ce soit la vraie réponse. En utilisant mes données simulées, j'ai corrélé et tracé les résidus par rapport à la dv d'origine; r = .22 et l'intrigue ressemble beaucoup à mon 3ème intrigue, pas à l'intrigue de questions. Bien sûr, j'ai travaillé ces données pour vérifier la plausibilité de mon histoire - elles peuvent ne pas être appropriées pour vérifier la vôtre.

— gung - Rétablir Monica

@gung que voulez-vous dire que vous avez utilisé vos données simulées?

— Michael Bishop

@MichaelBishop si vous regardez ma réponse, vous voyez que j'ai simulé des données pour essayer mon histoire pour voir si elle ressemblerait à l'intrigue publiée. Mon code et mes graphiques sont présentés. Depuis que j'ai spécifié la graine, elle est reproductible par toute personne ayant accès à R.

— gung - Reinstate Monica

4

Est-il possible que vous confondiez les valeurs ajustées / prévues avec les valeurs réelles?

Comme l'ont dit @gung et @biostat, vous espérez qu'il n'y a pas de relation entre les valeurs ajustées et les résidus. D'un autre côté, trouver une relation linéaire entre les valeurs réelles de la variable dépendante / résultat et les résidus est à prévoir et n'est pas particulièrement informatif.

Ajouté pour clarifier la phrase précédente: Pas n'importe quelle relation linéaire entre les résidus et les valeurs réelles du résultat est à prévoir ... Pour les faibles valeurs mesurées de Y, les valeurs prédites de Y à partir d'un modèle utile auront tendance à être plus élevées que les valeurs mesurées réelles et vice versa.

— Michael Bishop
source

L'implication de ce que vous dites est que, si les valeurs sont systématiquement sous-prédites à des valeurs faibles de Y et constamment sur-prédites à des valeurs élevées de Y, c'est OK. C'est un problème, non?

— rolando2

@ rolando2, je n'ai pas sous-entendu ce que vous dites que j'ai sous-entendu, mais je devrais peut-être clarifier ma réponse. Comme vous l'avez dit, une sous-prédiction constante à de faibles valeurs de Y et une sur-prédiction à des valeurs élevées de Y serait le signe d'un très mauvais modèle. J'ai imaginé le contraire, en prédictant à des valeurs faibles de Y et en sous-prédisant à des valeurs élevées de Y. Ce phénomène est courant et il faut s'y attendre à peu près proportionnellement à la proportion de la variance de la variable dépendante que vous êtes en mesure d'expliquer. Imaginez qu'il vous manque des variables qui prédisent Y, vous utilisez donc toujours la moyenne comme prédiction

— Michael Bishop

1

ce que vous avez dit a du sens pour moi, sauf pour une chose. J'ai du mal à imaginer qu'une tendance aussi forte que celle que Luigi a montrée se présenterait jamais dans une solution saine ou souhaitable, même si la tendance allait du haut à gauche au bas à droite.

— rolando2

1

@ rolando2, les résidus sont généralement définis comme observés - ajustés, les résidus négatifs sont donc des sur-prédictions. Dans un modèle correctement spécifié avec peu de pouvoir explicatif - je suis un sociologue donc je les vois tout le temps - il y aura une forte relation positive entre les résidus et les valeurs de résultats observées. S'il s'agit d'un tracé résiduel par rapport à la courbe réelle, une tendance allant du coin supérieur gauche au coin inférieur droit serait le signal d'un modèle mal spécifié qui vous inquiétait initialement.

— Michael Bishop

Ok, ma faute. Comme Michael Bishop et Roah l'ont écrit, Gretl trace les résidus par rapport au y observé , pas à celui prévu. Je suis vraiment désolé pour tout ce gâchis, je ne m'attendais vraiment pas à toutes ces réponses. Je suis débutant et j'ai fait cette erreur, j'espère donc que vous pourrez me "pardonner". Quoi qu'il en soit, je pense que cela devrait m'indiquer que j'aurais dû utiliser plus de variables explicatives. Merci à tous!

— Luigi

3

Les réponses proposées me donnent quelques idées sur ce qui se passe ici. Je pense qu'il y a peut-être eu des erreurs par accident. Voyez si l'histoire suivante a du sens: pour commencer, je pense qu'il y a probablement une forte relation entre X & Y dans les données (voici du code et un tracé):

set.seed(5)
wage <- rlnorm(1000, meanlog=2.3, sdlog=.5)
something_else <- .7*wage + rnorm(1000, mean=0, sd=1)
plot(wage, something_else, pch=3, col="red", main="Plot X vs. Y")

entrez la description de l'image ici

Mais par erreur, Y a été prévu uniquement à partir de la moyenne. Pour ajouter à cela, les résidus du modèle de moyenne seule sont tracés en fonction de X, même si ce qui était prévu était de tracer en fonction des valeurs ajustées (code et tracé):

meanModel <- lm(something_else~1)
windows()
plot(wage, meanModel$residuals, pch=3, col="red", 
    main="Plot of residuals from Mean only Model against X")
abline(h=0, lty="dotted")

entrez la description de l'image ici

Nous pouvons résoudre ce problème en ajustant le modèle approprié et en traçant les résidus à partir de cela (code et tracé):

appropriateModel <- lm(something_else~wage)
windows()
plot(appropriateModel$fitted.values, appropriateModel$residuals, pch=3, col="red",
main="Plot of residuals from the appropriate\nmodel against fitted values")
lines(lowess(appropriateModel$residuals~appropriateModel$fitted.values))

entrez la description de l'image ici

Cela semble être juste le genre de gaffes que j'ai faites au début.

— gung - Réintégrer Monica
source

0

Ce graphique indique que le modèle que vous avez installé n'est pas bon. Comme l'a dit @gung dans les premiers commentaires sur la question principale, il ne devrait pas y avoir de relation entre la réponse prédite et le résidu.

"un analyste devrait s'attendre à ce qu'un modèle de régression se trompe en prédisant une réponse de manière aléatoire; le modèle devrait prévoir des valeurs supérieures à la réalité et inférieures à la réalité avec une probabilité égale. Voir ceci "

Je recommanderais la première réponse du tracé par rapport à la variable indépendante pour voir la relation entre eux. Il pourrait être raisonnable d'ajouter des termes polynomiaux dans le modèle.

— Biostat
source

0

N'est-ce pas ce qui se passe s'il n'y a pas de relation entre la variable X & Y? En regardant ce graphique, il semble que vous prédisiez essentiellement Y avec sa moyenne.

— Adam
source

0

Je pense que OP a tracé les résidus par rapport à la variable de réponse d'origine (et non la variable de réponse ajustée du modèle). Je vois des tracés comme ça tout le temps, avec presque le même motif exact. Assurez-vous de tracer les résidus par rapport aux valeurs ajustées, car je ne sais pas quelle déduction significative vous pourriez tirer des résidus par rapport au Y d'origine. Mais je peux certainement me tromper.

— Todai
source