Quelle est la différence fondamentale entre ces deux modèles de régression?

Supposons que j'ai une réponse bivariée avec une corrélation significative. J'essaie de comparer les deux façons de modéliser ces résultats. Une façon consiste à modéliser la différence entre les deux résultats: Une autre façon consiste à les utiliser ou à les modéliser:

(y_{i 2} - y_{i 1} = β_{0} + X^{'} β)

$(y_{i2}-y_{i1}=\beta_0+X'\beta)$ glsgee

(y_{i j} = β_{0} + time + X^{'} β)

$(y_{ij}=\beta_0+\text{time}+X'\beta)$

Voici un exemple foo:

#create foo data frame

require(mvtnorm)
require(reshape)
set.seed(123456)
sigma <- matrix(c(4,2,2,3), ncol=2)
y <- rmvnorm(n=500, mean=c(1,2), sigma=sigma)
cor(y)
x1<-rnorm(500)
x2<-rbinom(500,1,0.4)
df.wide<-data.frame(id=seq(1,500,1),y1=y[,1],y2=y[,2],x1,x2)
df.long<-reshape(df.wide,idvar="id",varying=list(2:3),v.names="y",direction="long")
df.long<-df.long[order(df.long$id),]
    df.wide$diff_y<-df.wide$y2-df.wide$y1


#regressions
fit1<-lm(diff_y~x1+x2,data=df.wide)
fit2<-lm(y~time+x1+x2,data=df.long)
fit3<-gls(y~time+x1+x2,data=df.long, correlation = corAR1(form = ~ 1 | time))

Quelle est la différence fondamentale entre fit1et fit2? Et entre fit2et fit3, étant donné qu'ils sont si proches des valeurs de et des estimations? $p$

r regression model-selection

— David Z
source

La différence entre fit1 et fit3 est parfois appelée paradoxe du Seigneur. Voir ici pour une discussion (sur la raison pour laquelle les estimations ne changent pas entre les modèles) et une référence à un article de Paul Allison, stats.stackexchange.com/a/15759/1036 . Une autre référence est

Holland, Paul & Donald Rubin. 1983. On Lord’s Paradox. In Principles of modern psychological measurement: A festchrift for Frederic M. Lord edited by Wainer, Howard & Samuel Messick pgs:3-25. Lawrence Erlbaum Associates. Hillsdale, NJ.

— Andy W

Tout d'abord, je vais présenter un quatrième modèle de discussion dans ma réponse:

fit1.5 <- lm (y_2 ~ x_1 + x_2 + y_1)

Partie 0
La différence entre fit1 et fit1.5 est mieux résumée comme la différence entre une différence contrainte et une différence optimale.

Je vais utiliser un exemple plus simple pour expliquer cela que celui fourni ci-dessus. Commençons par fit1.5. Une version plus simple du modèle serait Bien sûr, lorsque nous obtenons une estimation OLS, il trouvera le choix "optimal" pour . Et, bien qu'il semble étrange d'écrire tel , nous pourrions réécrire la formule comme Nous pouvons penser à cela comme la différence "optimale" entre les deux variables .

y_{2} = b_{0} + b_{1} \cdot x + b_{2} \cdot y_{1}

$y_2 = b_0 + b_1·x + b_2·y_1$

b_{2}

$b_2$

y_{2} - b_{2} \cdot y_{1} = b_{0} + b_{1} \cdot x

$y_2 - b_2·y_1 = b_0 + b_1·x$

y

$y$

Maintenant, si nous décidons de contraindre , alors la formule / le modèle devient qui est juste la différence (contrainte). $b_2=1$

y_{2} - y_{1} = b_{0} + b_{1} \cdot x

$y_2 - y_1 = b_0 + b_1·x$

Remarquez, dans la démonstration ci-dessus, si vous laissez être une variable dichotomique, et un appariement de score pré-test et un post-test, alors le modèle de différence contrainte ne serait que les échantillons indépendants test pour le gain de scores , alors que le modèle de différence optimal serait le test ANCOVA avec les scores pré-test utilisés comme covariables. $x$ $y_1$ $y_2$ $t$

Partie 1
Le modèle de fit2 peut être pensé de manière similaire à l'approche par différence utilisée ci-dessus. Bien qu'il s'agisse d'une simplification excessive (car je laisse délibérément de côté les termes d'erreur), le modèle pourrait être présenté comme où pour les valeurs et pour les valeurs . Voici la simplification excessive ... cela nous permet d'écrire Écrit d'une autre manière, . Alors que le modèle fit1.5 avait comme valeur pour faire la différence optimale pour l'analyse OLS, ici

y = b_{0} + b_{1} \cdot x + b_{2} \cdot t

$y = b_0 + b_1 · x + b_2 · t$

t = 0

$t=0$

y_{1}

$y_1$

t = 1

$t=1$

y_{2}

$y_2$

\begin{aligned} y_{1} & = b_{0} + b_{1} \cdot x \\ y_{2} & = b_{0} + b_{1} \cdot x + b_{2} \end{aligned}

$\begin{align}y_1 & = b_0 + b_1 · x \\ y_2 & = b_0 + b_1 · x + b_2\end{align}$

y_{2} - y_{1} = b_{2}

$y_2 - y_1 = b_2$

b_{2}

$b_2$

b_{2}

$b_2$ est essentiellement juste la différence moyenne entre les valeurs (après contrôle des autres covariables).

y

$y$

Partie 2
Alors, quelle est la différence entre les modèles fit2 et fit3 ... en fait, très peu. Le modèle fit3 tient compte de la corrélation en termes d'erreur, mais cela ne change que le processus d'estimation, et donc les différences entre les deux sorties du modèle seront minimes (au-delà du fait que fit3 estime le facteur autorégressif).

Partie 2.5
Et j'inclurai encore un autre modèle dans cette discussion

fit4 <- lmer (y ~ temps + x1 + x2 + (1 | id), data = df.long)

Ce modèle à effets mixtes fait une version légèrement différente de l'approche autorégressive. Si nous devions inclure le coefficient de temps dans les effets aléatoires, cela serait comparable au calcul de la différence entre les pour chaque sujet. (Mais cela ne fonctionnera pas ... et le modèle ne fonctionnera pas.) $y$

— Gregg H
source