Tout d'abord, je vais présenter un quatrième modèle de discussion dans ma réponse:
fit1.5 <- lm (y_2 ~ x_1 + x_2 + y_1)
Partie 0
La différence entre fit1 et fit1.5 est mieux résumée comme la différence entre une différence contrainte et une différence optimale.
Je vais utiliser un exemple plus simple pour expliquer cela que celui fourni ci-dessus. Commençons par fit1.5. Une version plus simple du modèle serait
Bien sûr, lorsque nous obtenons une estimation OLS, il trouvera le choix "optimal" pour . Et, bien qu'il semble étrange d'écrire tel , nous pourrions réécrire la formule comme
Nous pouvons penser à cela comme la différence "optimale" entre les deux variables .
y2=b0+b1⋅x+b2⋅y1
b2y2−b2⋅y1=b0+b1⋅x
y
Maintenant, si nous décidons de contraindre , alors la formule / le modèle devient
qui est juste la différence (contrainte).b2=1
y2−y1=b0+b1⋅x
Remarquez, dans la démonstration ci-dessus, si vous laissez être une variable dichotomique, et un appariement de score pré-test et un post-test, alors le modèle de différence contrainte ne serait que les échantillons indépendants test pour le gain de scores , alors que le modèle de différence optimal serait le test ANCOVA avec les scores pré-test utilisés comme covariables.xy1y2t
Partie 1
Le modèle de fit2 peut être pensé de manière similaire à l'approche par différence utilisée ci-dessus. Bien qu'il s'agisse d'une simplification excessive (car je laisse délibérément de côté les termes d'erreur), le modèle pourrait être présenté comme
où pour les valeurs et pour les valeurs . Voici la simplification excessive ... cela nous permet d'écrire
Écrit d'une autre manière, . Alors que le modèle fit1.5 avait comme valeur pour faire la différence optimale pour l'analyse OLS, ici
y=b0+b1⋅x+b2⋅t
t=0y1t=1y2y1y2=b0+b1⋅x=b0+b1⋅x+b2
y2−y1=b2b2b2est essentiellement juste la différence moyenne entre les valeurs (après contrôle des autres covariables).
y
Partie 2
Alors, quelle est la différence entre les modèles fit2 et fit3 ... en fait, très peu. Le modèle fit3 tient compte de la corrélation en termes d'erreur, mais cela ne change que le processus d'estimation, et donc les différences entre les deux sorties du modèle seront minimes (au-delà du fait que fit3 estime le facteur autorégressif).
Partie 2.5
Et j'inclurai encore un autre modèle dans cette discussion
fit4 <- lmer (y ~ temps + x1 + x2 + (1 | id), data = df.long)
Ce modèle à effets mixtes fait une version légèrement différente de l'approche autorégressive. Si nous devions inclure le coefficient de temps dans les effets aléatoires, cela serait comparable au calcul de la différence entre les pour chaque sujet. (Mais cela ne fonctionnera pas ... et le modèle ne fonctionnera pas.)y
Holland, Paul & Donald Rubin. 1983. On Lord’s Paradox. In Principles of modern psychological measurement: A festchrift for Frederic M. Lord edited by Wainer, Howard & Samuel Messick pgs:3-25. Lawrence Erlbaum Associates. Hillsdale, NJ.