Pourquoi le centrage de variables indépendantes pourrait-il modifier les principaux effets avec modération?


28

J'ai une question liée à la régression multiple et à l'interaction, inspirée de ce fil de CV: terme d'interaction utilisant une analyse de régression hiérarchique à variables centrées? Quelles variables devons-nous centrer?

Lorsque je vérifie un effet de modération, je centre mes variables indépendantes et je multiplie les variables centrées afin de calculer mon terme d'interaction. Ensuite, je lance mon analyse de régression et vérifie les effets principaux et d'interaction, qui peuvent montrer la modération.

Si je refais l'analyse sans centrer, apparemment le coefficient de détermination ( ) ne change pas mais les coefficients de régression ( s) changent . Cela semble clair et logique. βR2β

Ce que je ne comprends pas: Les valeurs de p des effets principaux changent considérablement avec le centrage, bien que l'interaction ne change pas (ce qui est vrai). Donc, mon interprétation des effets principaux pourrait changer radicalement - juste déterminée par le centrage ou non. (Ce sont toujours les mêmes données, dans les deux analyses!)

Quelqu'un peut-il clarifier? - Parce que cela signifierait que l'option de centrer mes variables serait obligatoire et que tout le monde devrait le faire afin d'obtenir les mêmes résultats avec les mêmes données.


Merci beaucoup d'avoir distribué ce problème et vos explications détaillées. Soyez assuré que votre aide est très appréciée!

Pour moi, le plus grand avantage du centrage est d'éviter la multicollinéarité. Il est encore assez déroutant d'établir une règle, qu'elle soit centrée ou non. J'ai l'impression que la plupart des ressources suggèrent de se centrer, bien qu'il y ait des "risques" à le faire. Encore une fois, je veux souligner le fait que 2 chercheurs traitant du même matériel et des mêmes données peuvent conclure des résultats différents, parce que l'un fait le centrage et l'autre pas. Je viens de lire une partie d'un livre de Bortz (il était professeur et une sorte de star de la statistique en Allemagne et en Europe), et il ne mentionne même pas cette technique; souligne simplement qu'il faut être prudent dans l'interprétation des principaux effets des variables lorsqu'elles sont impliquées dans des interactions.

Après tout, lorsque vous effectuez une régression avec un IV, un modérateur (ou un deuxième IV) et un DV, recommanderiez-vous de centrer ou non?


5
Je n'utilise presque jamais le centrage, le trouvant complètement inutile et déroutant.
Frank Harrell

3
Relisez attentivement les réponses. Vos conclusions ne changent pas lorsque vous centrez les variables indépendantes ou n'appliquez aucune transformation linéaire - si elles sont correctement dessinées. La multicollinéarité due au non-centrage est un problème purement numérique et traité automatiquement par tout logiciel décent.
Scortchi - Réintégrer Monica

1
Ce phénomène (de modification des valeurs de p) peut être compris comme une conséquence de la nature quadratique des interactions, comme expliqué sur stats.stackexchange.com/questions/28730/… .
whuber

Réponses:


23

Dans les modèles sans termes d'interaction (c'est-à-dire sans termes construits comme le produit d'autres termes), le coefficient de régression de chaque variable est la pente de la surface de régression dans la direction de cette variable. Elle est constante, quelles que soient les valeurs des variables, et peut donc être considérée comme mesurant l'effet global de cette variable.

Dans les modèles avec interactions, cette interprétation peut être faite sans autre qualification uniquement pour les variables qui ne sont impliquées dans aucune interaction. Pour une variable impliquée dans des interactions, le coefficient de régression «à effet principal» - c'est-à-dire le coefficient de régression de la variable seul - est la pente de la surface de régression dans la direction de cette variable lorsque toutes les autres variables qui interagir avec cette variable ont des valeurs nulles et le test de signification du coefficient se réfère à la pente de la surface de régression uniquement dans cette région de l'espace de prédiction. Puisqu'il n'est pas nécessaire qu'il y ait réellement des données dans cette région de l'espace, le coefficient d'effet principal peut avoir peu de ressemblance avec la pente de la surface de régression dans la région de l'espace prédictif où les données ont été réellement observées.

En termes anova, le coefficient d'effet principal est analogue à un effet principal simple, pas un effet principal global. De plus, cela peut faire référence à ce qui dans un plan anova serait des cellules vides dans lesquelles les données ont été fournies par extrapolation à partir de cellules avec des données.

Pour une mesure de l'effet global de la variable qui est analogue à un effet principal global dans anova et qui n'extrapole pas au-delà de la région dans laquelle les données ont été observées, nous devons regarder la pente moyenne de la surface de régression dans la direction de la variable , où la moyenne est supérieure aux N cas réellement observés. Cette pente moyenne peut être exprimée comme une somme pondérée des coefficients de régression de tous les termes du modèle qui impliquent la variable en question.

Les poids sont difficiles à décrire mais faciles à obtenir. Le coefficient d'effet principal d'une variable obtient toujours un poids de 1. Pour chaque autre coefficient d'un terme impliquant cette variable, le poids est la moyenne du produit des autres variables de ce terme. Par exemple, si nous avons cinq variables "brutes" x1, x2, x3, x4, x5, plus quatre interactions bidirectionnelles (x1,x2), (x1,x3), (x2,x3), (x4,x5)et une interaction tripartite (x1,x2,x3), alors le modèle est

y = b0 + b1*x1 + b2*x2 + b3*x3 + b4*x4 + b5*x5 +
    b12*x1*x2 + b13*x1*x3 + b23*x2*x3 + b45*x4*x5 +
    b123*x1*x2*x3 + e

et les principaux effets globaux sont

B1 = b1 + b12*M[x2] + b13*M[x3] + b123*M[x2*x3],

B2 = b2 + b12*M[x1] + b23*M[x3] + b123*M[x1*x3],

B3 = b3 + b13*M[x1] + b23*M[x2] + b123*M[x1*x2],

B4 = b4 + b45*M[x5],

B5 = b5 + b45*M[x4],

où M [.] désigne la moyenne de l'échantillon de la quantité à l'intérieur des parenthèses. Tous les termes du produit à l'intérieur des parenthèses sont parmi ceux qui ont été construits afin de faire la régression, donc un programme de régression devrait déjà les connaître et devrait pouvoir imprimer leurs moyens sur demande.

Dans les modèles qui n'ont que des effets principaux et des interactions bidirectionnelles, il existe un moyen plus simple d'obtenir les effets globaux: centrez [1] les variables brutes à leur moyenne. Cela doit être fait avant de calculer les conditions du produit et ne doit pas être fait pour les produits. Toutes les expressions M [.] Deviendront alors 0 et les coefficients de régression seront interprétables comme des effets globaux. Les valeurs des b changeront; les valeurs des B ne le seront pas. Seules les variables impliquées dans les interactions doivent être centrées, mais il n'y a généralement pas de mal à centrer d'autres variables mesurées. L'effet général du centrage d'une variable est qu'en plus de modifier l'ordonnée à l'origine, il ne modifie que les coefficients d'autres variables qui interagissent avec la variable centrée. En particulier, il ne modifie pas les coefficients des termes qui impliquent la variable centrée. Dans l'exemple donné ci-dessus, le centrage x1 changerait b0, b2, b3 et b23.

[1 - Le «centrage» est utilisé par différentes personnes d'une manière qui diffère juste assez pour semer la confusion. Tel qu'utilisé ici, "centrer une variable sur #" signifie soustraire # de tous les scores de la variable, convertir les scores originaux en écarts par rapport à #.]

Alors pourquoi ne pas toujours se concentrer sur les moyens, régulièrement? Trois raisons. Premièrement, les coefficients d'effet principal des variables non centrées peuvent eux-mêmes être intéressants. Le centrage dans de tels cas serait contre-productif, car il modifie les coefficients d'effet principal des autres variables.

Deuxièmement, le centrage rendra toutes les M [.] Expressions 0, et donc convertira les effets simples en effets globaux, uniquement dans les modèles sans interaction à trois voies ou plus . Si le modèle contient de telles interactions, alors les calculs b -> B doivent encore être effectués, même si toutes les variables sont centrées à leur moyenne.

Troisièmement, le centrage à une valeur telle que la moyenne, qui est définie par la distribution des prédicteurs au lieu d'être choisi rationnellement, signifie que tous les coefficients qui sont affectés par le centrage seront spécifiques à votre échantillon particulier. Si vous vous concentrez sur la moyenne, alors une personne qui tente de reproduire votre étude doit se concentrer sur votre moyenne, et non sur sa propre moyenne, si elle veut obtenir les mêmes coefficients que vous. La solution à ce problème consiste à centrer chaque variable sur une valeur centrale rationnellement choisie de cette variable qui dépend de la signification des scores et ne dépend pas de la distribution des scores. Cependant, les calculs b -> B restent nécessaires.

L'importance des effets globaux peut être testée par les procédures habituelles de test des combinaisons linéaires de coefficients de régression. Cependant, les résultats doivent être interprétés avec soin car les effets globaux ne sont pas des paramètres structurels mais dépendent du plan. On peut s'attendre à ce que les paramètres structurels - les coefficients de régression (non centrés ou avec un centrage rationnel) et la variance d'erreur restent invariants en cas de changements dans la distribution des prédicteurs, mais les effets globaux changeront généralement. Les effets globaux sont spécifiques à l'échantillon particulier et ne devraient pas se répercuter sur d'autres échantillons avec des distributions différentes sur les prédicteurs. Si un effet global est significatif dans une étude et non dans une autre, il peut ne refléter rien de plus qu'une différence dans la distribution des prédicteurs.


10

β

y=β1x1+β2x2+β3x1x2+ϵβ1x1β3x1x2x 1 x 2 βx1La seule façon de maintenir constant le terme d'interaction pour une augmentation d'une unité sur ou (les deux variables impliquées dans l'interaction) est de mettre l'autre variable à 0.x1x2 Par conséquent, lorsqu'une variable fait également partie d'un terme d'interaction , l'interprétation de la pour cette variable est conditionnelle à ce que l'autre variable soit 0, et non simplement maintenue constante.β

ββ1yx1 x2=0x1yx2β1x2

βx1yx2yx1x2


-1

Je suis devenu fou avec la même question, mais j'ai finalement trouvé la solution à votre et à mon problème. C'EST TOUT SUR LA FAÇON DE CALCULER VOS VARIABLES CENTRÉES. Deux options sont disponibles:
1. MOYENNE - VARIABLES INDIVIDUELLES 2. VARIABLES INDIVIDUELLES - MOYENNE
Vous avez probablement calculé vos variables centrées comme (variable individuelle - valeur moyenne) , donc celles avec des valeurs faibles obtiendraient des scores négatifs, et celles avec des valeurs élevées deviendraient positives scores.
Je vais vous expliquer avec un exemple pour le rendre plus facile à comprendre. Je veux voir comment la force musculaire affecte la masse osseuse et je veux prendre en compte le sexe pour voir si elle affecte différemment chez les filles et les garçons. L'idée est que plus la force musculaire est élevée, plus la masse osseuse est élevée. J'ai donc:

Variable dépendante: Masse osseuse Variables indépendantes: Sexe, force musculaire, interaction_SEX_MUSCLEstrength.

Comme j'ai trouvé la multicolinéarité (vous le faites généralement lorsque vous avez un terme d'interaction), j'ai centré la force musculaire (MEAN - INDIVIDUAL VARIABLE) et créé le nouveau terme d'interaction avec la nouvelle variable centrée. Mes coefficients étaient

Constante: 0.902
Sexe: -0.010(Garçons = 0; Filles = 1)
Muscle centré: -0.023
Interaction: 0.0002
Par conséquent, si vous vouliez estimer la masse osseuse d'un garçon, vous auriez l'équation suivante:
Masse osseuse =0.902(00.010)(0.023musclecentredvalue)+(Interaction0.0002)

En regardant cela, vous pourriez penser que le muscle affecte négativement les os, mais vous devez penser à vos variables centrées, pas à vos variables d'origine. Disons que la force musculaire moyenne du groupe était de 30 KG. Et vous voulez estimer la masse osseuse d'un garçon (WEAKBOY) qui a joué 20 KGet d'un autre qui a joué 40KG(STRONGBOY). Les valeurs centrées de WEAKBOY seront (VALEUR MOYENNE DU GROUPE - VALEUR INDIVIDUELLE; 30 - 20 = 10), et pour STRONGBOY sera -10. Appliquer ces valeurs à l'équation:

WEAKBOY Masse osseuse = 0,902 - 0 - (0,023 * 10) + .... = 0,672

STRONGBOY Masse osseuse = 0,902 - (0,023 * (- 10)) + ... = 1,132

Comme vous pouvez le voir, STRONGBOY aura en effet un os plus solide. Si vous aviez centré vos variables dans l'autre sens: (INDIVIDUEL - MOYEN), tous les coefficients seront les mêmes mais les symboles seront différents. En effet, lorsque vous appliquez la variable centrée, WEAKBOY sera (-10) et STRONGBOY sera (+10). Par conséquent, les résultats finaux seront exactement les mêmes.

Tout cela a du sens une fois que vous le comprenez.

J'espère que l'exemple est assez clair.


Cette erreur n'expliquerait pas les changements de valeurs de p. BTW, votre option (1) n'est pas centrée, car elle inclut également la multiplication des valeurs par une constante. (La constante est -1.)
Whuber
En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.