Pour répondre à votre question littérale, "Est-il valide d'inclure une mesure de base en tant que variable de contrôle lors du test de l'effet d'une variable indépendante sur les scores de changement?", La réponse est non . La réponse est non, car, par construction, le score de référence est corrélé au terme d'erreur lorsque le score de changement est utilisé comme variable dépendante. Par conséquent, l'effet estimé de la référence sur le score de changement est ininterprétable.
En utilisant
- Y1 comme poids initial
- Y2 comme poids final
- tant que changement de poids (c.-à-d. Δ Y = Y 2 - Y 1 )ΔYΔY=Y2−Y1
- commetraitementassigné au hasard, etT
- tant qu'autres facteurs exogènes ayant une incidence sur le poids (par exemple, d'autres variables de contrôle liées au résultat mais qui ne doivent pas être corrélées avec le traitement en raison d'une assignation aléatoire)X
On a alors un modèle régressant sur T et X ;ΔYTX
ΔY=β1T+β2X+e
Qui par définition est équivalent à;
Y2−Y1=β1T+β2X+e
Maintenant, si vous incluez la ligne de base en tant que covariable, vous devriez voir un problème, en ce sens que vous avez le terme deux côtés de l'équation. Cela montre que β 3 Y 1 est ininterprétable, car il est intrinsèquement corrélé au terme d'erreur.Y1β3Y1
Y2−Y1Y2=β1T+β2X+β3Y1+e=β1T+β2X+β3Y1+(e+Y1)
Or, une partie de la confusion dans les différentes réponses semble provenir du fait que différents modèles donneront des résultats identiques pour l’ effet du traitement , dans la formulation ci-dessus. Ainsi, si l’on comparait l’effet du traitement pour le modèle en utilisant les scores de changement comme variable dépendante du modèle en utilisant les "niveaux" (chaque modèle incluant la ligne de base Y 1 en tant que covariable), l’interprétation de l’effet du traitement serait: le même. Dans les deux modèles qui suivent, β 1 T sera identique, de même que les inférences basées sur ces modèles (Bruce Weaver a affiché du code SPSS démontrant également l'équivalence).β1TY1β1T
Change Score ModelLevels Model:Y2−Y1=β1T+β2X+β3Y1+e:Y2=β1T+β2X+β3Y1+e
Certains diront donc (comme Felix dans ce fil, et comme Bruce Weaver l’a fait lors de discussions sur le groupe google SPSS) que, étant donné que les modèles produisent le même effet de traitement estimé, peu importe celui que vous choisissez. Je ne suis pas d'accord, car la covariable de base dans le modèle de score de changement ne peut pas être interprétée, vous ne devez jamais inclure la référence comme covariable (que l'effet estimé du traitement soit identique ou non). Cela soulève donc une autre question: à quoi sert-il d'utiliser les scores de changement comme variables dépendantes? Comme Felix l'a déjà noté également, le modèle utilisant le score de changement comme variable dépendante excluant la ligne de base en tant que covariable est différent du modèle utilisant les niveaux. Pour clarifier, les modèles suivants donneront des effets de traitement différents (en particulier dans le cas où le traitement est corrélé avec la ligne de base);
Change Score Model Without BaselineLevels Model:Y2−Y1=β1T+β2X+e:Y2=β1T+β2X+β3Y1+e
Cela a été noté dans la littérature antérieure comme "Le paradoxe du Seigneur". Alors quel modèle a raison? Eh bien, dans le cas d'expériences randomisées, je dirais que le modèle Levels est préférable (bien que si vous faites du bon travail en randomisant, l'effet de traitement moyen devrait être très proche entre les modèles). D'autres ont noté les raisons pour lesquelles le modèle de niveaux est préférable, la réponse de Charlie montre clairement que vous pouvez estimer les effets d'interaction avec la ligne de base dans le modèle de niveaux (mais vous ne pouvez pas utiliser le modèle de score de changement). Whuber dans cette réponse à une question très similaire montre comment les scores de changement induisent des corrélations entre différents traitements.
Dans les situations où le traitement n'est pas attribué au hasard, le modèle utilisant des scores de changement comme variable dépendante devrait être davantage pris en compte. Le principal avantage du modèle de score de changement est que tous les prédicteurs invariants dans le temps du résultat sont contrôlés. Ainsi, dans la formulation ci-dessus, est constant dans le temps (par exemple, une prédisposition génétique à un certain poids) et X est en corrélation avec le fait qu'un individu choisisse de faire de l'exercice (et X n'est pas observé). Dans ce cas, le modèle de score de changement est préférable. De même, dans les cas où la sélection dans le traitement est corrélée à la valeur de base, le modèle de score de changement peut être préférable. Paul Allison dans son journal,XXXChanger les scores en tant que variables dépendantes dans l'analyse de régression donne ces mêmes exemples (et a largement influencé mon point de vue sur le sujet, je suggère donc vivement de le lire).
Cela ne veut pas dire que les scores de changement sont toujours préférables dans des contextes non randomisés. Si vous vous attendez à ce que la référence ait un effet causal réel sur le poids de la publication, vous devez utiliser le modèle des niveaux. Dans le cas où vous vous attendez à ce que la ligne de base ait un effet causal et que la sélection dans le traitement soit corrélée à la ligne de base, l'effet du traitement est confondu avec l'effet de ligne de base.
J'ai ignoré la note de Charlie selon laquelle le logarithme du poids pourrait être utilisé comme variable dépendante. Bien que je ne doute pas que cela pourrait être une possibilité, c'est en quelque sorte une question non séquentielle à la question initiale. Une autre question a porté sur le moment approprié pour utiliser les logarithmes de la variable (et ceux-ci s'appliquent toujours dans ce cas). Il existe probablement des publications antérieures sur le sujet qui pourraient vous aider à déterminer si l’utilisation du poids journalé est également appropriée.
Citation
Allison, Paul D. 1990. Variation des scores en tant que variables dépendantes dans l'analyse de régression . Sociology Methodology 20: 93-114. Version PDF publique .