L'exemple de @ Peter comporte deux éléments, qu'il pourrait être utile de démêler:
(1) Spécification erronée du modèle. Les modèles
yi=β0+β1xi+εi(1)
&
wi=γ0+γ1zi+ζi(2)
, où &zi=√wi=yixi−−√ , ne peut pas être vrai tous les deux. Si vous ré-exprimez chacun en termes de réponse de l'autre, ils deviennent non linéaires dans les paramètres, avec des erreurs hétéroskédastiques.zi=xi−−√
wi=β0z2i+β1+εiz2i−−−−−−−−−−−√(1)
yi=(γ0x−−√i+γ1x−−√i+ζix−−√i)2(2)
Si est supposé être une variable aléatoire gaussienne indépendante de X , alors c'est un cas spécial du modèle 1 dans lequel β 1 = 0 , et vous ne devriez pas utiliser le modèle 2. Mais également si W est supposé être un aléatoire gaussien variable indépendante de Z , vous ne devez pas utiliser le modèle 1. Toute préférence pour un modèle plutôt que pour l'autre doit provenir de la théorie de fond ou de leur ajustement aux données.YXβ1=0WZ
(2) Transformation de la réponse. Si vous saviez que & X étaient des variables aléatoires gaussiennes indépendantes, pourquoi la relation entre W & Z vous surprendrait-elle toujours, ou diriez-vous que c'est faux? L'espérance conditionnelle de W peut être approximée avec la méthode delta:YXWZW
EYx−−√=EY−−√z≈β0−−√+VarY8β3/20z
C'est en effet une fonction de .z
En suivant l'exemple ...
set.seed(123)
x <- rnorm(100, 20, 2)
y <- rnorm(100, 20, 2)
w <- (y/x)^.5
z <- x^.5
wrong.model <- lm(w~z)
right.model <- lm(y~x)
x.vals <- as.data.frame(seq(15,25,by=.1))
names(x.vals) <- "x"
z.vals <- as.data.frame(x.vals^.5)
names(z.vals) <- "z"
plot(x,y)
lines(x.vals$x, predict(right.model, newdata=x.vals), lty=3)
lines(x.vals$x, (predict(wrong.model, newdata=z.vals)*z.vals)^2, lty=2)
abline(h=20)
legend("topright",legend=c("data","y on x fits","w on z fits", "truth"), lty=c(NA,3,2,1), pch=c(1,NA,NA,NA))
plot(z,w)
lines(z.vals$z,sqrt(predict(right.model, newdata=x.vals))/as.matrix(z.vals), lty=3)
lines(z.vals$z,predict(wrong.model, newdata=z.vals), lty=2)
lines(z.vals$z,(sqrt(20) + 2/(8*20^(3/2)))/z.vals$z)
legend("topright",legend=c("data","y on x fits","w on z fits","truth"),lty=c(NA,3,2,1), pch=c(1,NA,NA,NA))
yxwzwzzw
Aldrich (2005), «Correlations Genuine and Spurious in Pearson and Yule», Statistical Science , 10 , 4 fournit une perspective historique intéressante sur ces questions.