La corrélation entre les variables dans une interaction est-elle importante?

Supposons que vous ajustiez un modèle . Y a-t-il des implications pratiques pour l'estimation de l'effet d'interaction si et sont corrélés? $y = x_1 + x_2 + x_1\times x_2$ $x_1$ $x_2$

Je comprends qu'il pourrait y avoir des problèmes de colinéarité si et sont très corrélés, mais cela ne devrait pas affecter le terme d'interaction, n'est-ce pas? $x_1$ $x_2$

regression correlation interaction

— hlinee
source

Vous semblez rechercher des informations sur la corrélation entre

x_{1} x_{2}

$x_1x_2$ et

x_{1}

$x_1$ quand

x_{1}

$x_1$ et

x_{2}

$x_2$ sont corrélés. Une façon de se faire une idée de ce qui peut être déduit est de remarquer que, bien que l’ajout d’une constante (disons

c

$c$ ) à l'un des

x_{i}

$x_i$ ne changera pas leur corrélation, cela changera

x_{1} x_{2}

$x_1x_2$ en un plus constant

(x_{1} x_{2} + c x_{1} + c x_{2}) .

$(x_1 x_2 + cx_1 + cx_2).$ Ces deux derniers termes montrent que

c

$c$ a un effet profond sur la corrélation entre

x_{1} x_{2}

$x_1x_2$ et

x_{i} .

$x_i.$ Si cela ne suggère pas immédiatement une réponse à votre question, envisagez de dessiner des nuages de points.

— whuber

@whuber J'ai du mal à suivre votre logique - y a-t-il une explication étape par étape plus explicite à laquelle vous pouvez lier? J'ai essayé de l'écrire avec la formule de corrélation, mais je n'ai pas pu reproduire votre réponse

— hlinee

@whuber En outre, concernant ma question initiale, je pense qu'un certain contexte pourrait aider, car je suis d'accord, elle est assez vague. Ce qui s'est passé, c'est que j'ai présenté mes résultats à la recherche d'un effet d'interaction à un statisticien avec qui j'ai travaillé et la première chose qu'il m'a demandé était de savoir si les deux prédicteurs de mon interaction étaient corrélés. Je n'avais pas examiné la corrélation et je lui ai demandé pourquoi cela importait. Il ne pouvait pas tout à fait expliquer pourquoi mais a dit que cela importait, d'où ma question.

— hlinee

Il y a une raison pour laquelle votre consultant en statistique n'a pas pu expliquer pourquoi l'introduction d'une interaction dans un modèle linéaire pourrait nuire à la structure de corrélation: cela dépend des circonstances et il n'est généralement pas vrai qu'il y ait un effet négatif. Regardez simplement les ensembles de données montrés dans les matrices de nuages de points ci-dessous pour voir toutes les différentes façons dont deux variables peuvent être liées à leurs produits.

Le reste de cet article explique comment ces chiffres ont été produits et pourraient donner un meilleur aperçu de la situation.

Commençons par l'évidence: écrire $x_3=x_1x_2,$ vous avez une régression multiple impliquant les trois variables $x_1, x_2, x_3.$ L’existence ou non de problèmes de colinéarité dépend des relations linéaires entre les $x_i.$ C'est universel.

La particularité de ce problème est la relation entre $x_3$ et l'autre $x_i;$ à savoir que $x_3 = x_1x_2.$ Ainsi, si quelqu'un vous a conseillé de faire attention, cela doit être dû à une attente que cette relation multiplicative entraîne mathématiquement une sorte de multicolinéarité entre tous les $x_i.$

Ce n'est tout simplement pas le cas, comme cela peut être démontré en présentant tous les modèles possibles. Je ne veux pas vous épuiser avec la pédanterie de passer par toutes les possibilités, alors laissez-moi juste esquisser quelques-unes des plus illustratives. L'outil de base que je vais utiliser dans cette étude est l'observation que la corrélation entre toutes les variables $x_1, x_2$ reste inchangé lorsque le $x_i$ subissent séparément des transformations linéaires. Autrement dit, nous pouvons librement multiplier l'une ou l'autre variable par des constantes et ajouter d'autres constantes aux résultats sans modifier la corrélation. Cependant, ces opérations peuvent modifier profondément les corrélations entre $x_1x_2$ et $x_i.$

Produit (presque) constant

Il est possible pour $x_1x_2$ être constant (ce qui, quand une régression comprend une constante, sera problématique). Pour créer un exemple, générez simplement des valeurs non nulles pour $x_1$ et définir $x_2 = c/x_1.$ Leur produit est égal $c$ par construction.

Vous pouvez perturber cet exemple en modifiant $c\ne 0$ dans une variable aléatoire avec des valeurs proches de $c.$ Faire cela introduira une petite corrélation entre le $x_i$ et leur produit, mais pas beaucoup. Voici, par exemple, un exemple où $x_1$ est tiré d'un Gamma $(5)$ distribution et $c$ a une distribution normale avec une moyenne $1$ et l'écart-type de seulement $1/100:$

Bien que le $x_i$ avoir une corrélation de $\rho_{1\cdot 2}=-0.87$ dans cet exemple, leurs corrélations avec $x_1x_2$ sont seulement $-0.06$ et $0.00.$

Par conséquent, bien qu'il puisse y avoir un peu de problème en utilisant les deux $x_1$ et $x_2$ dans un modèle linéaire, y compris $x_1x_2$ est peu susceptible de l'aggraver.

Produit non constant

Pour rendre les calculs plus clairs, nous pouvons aussi bien supposer que $x_i$ avoir une variance d'unité. Soit la variance de $x_1x_2$ être $\tau^2$ et écris $\rho_{12\cdot i}$ pour les corrélations entre $x_1x_2$ et $x_i.$ Calculons ce qui arrive à ces corrélations lorsque les constantes $c_i$ sont soustraits de la $x_i.$ Parce que le $x_i$ jouer des rôles parfaitement symétriques (juste échanger " $1$ " pour " $2$ "dans les index), il suffit de calculer la corrélation avec $x_1:$

\begin{matrix} (*) & \begin{aligned} Cor ((X_{1} - c_{1}) (X_{2} - c_{2}), X_{1}) & = \frac{Cov ((X_{1} - c_{1}) (X_{2} - c_{2}), X_{1})}{\sqrt{Var (X_{1} - c_{1}) (X_{2} - c_{2}) Var X_{1}}} \\ = \frac{Cov (X_{1} X_{2} - c_{2} X_{1} - c_{1} X_{2} + c_{1} c_{2}, X_{1})}{\sqrt{Var (X_{1} X_{2} - c_{1} X_{2} - c_{2} X_{1} + c_{1} c_{2})}} \\ = \frac{τ ρ_{12 \cdot 1} - c_{2} - c_{1} ρ_{1 \cdot 2}}{\sqrt{τ^{2} - c_{1} ρ_{1 \cdot 2} - c_{2} - 2 c_{1} ρ_{12 \cdot 2} - 2 c_{2} ρ_{12 \cdot 1} + 2 c_{1} c_{2} ρ_{1 \cdot 2}}} . \end{aligned} \end{matrix}

$\eqalign{ \operatorname{Cor}((x_1-c_1)(x_2-c_2), x_1) &= \frac{\operatorname{Cov} ((x_1-c_1)(x_2-c_2), x_1)}{\sqrt{\operatorname{Var}{(x_1-c_1)(x_2-c_2)}\operatorname{Var}{x_1}}} \\ &= \frac{\operatorname{Cov} (x_1x_2 - c_2x_1 - c_1x_2+c_1c_2, x_1)}{\sqrt{\operatorname{Var}(x_1x_2 - c_1x_2 - c_2x_1 + c_1c_2)}} \\ &= \frac{\tau\rho_{12\cdot 1}-c_2-c_1\rho_{1\cdot 2}}{\sqrt{\tau^2 - c_1\rho_{1\cdot 2} - c_2 - 2c_1\rho_{12\cdot 2} - 2c_2\rho_{12\cdot 1} + 2c_1c_2\rho_{1\cdot 2}}}.\tag{*} }$

Aucune corrélation avec le produit

Quelle que soit la corrélation entre le $x_i$ pourrait être, nous pouvons choisir $(c_1,c_2)$ pour rendre le produit non corrélé avec le $x_i.$

D'après l'analyse qui précède, cet objectif sera atteint lorsque le numérateur de $(*)$ est nul pour $i=1,2:$

{\begin{matrix} 0 = τ ρ_{12 \cdot 1} - c_{2} - c_{1} ρ_{1 \cdot 2} \\ 0 = τ ρ_{12 \cdot 2} - c_{1} - c_{2} ρ_{1 \cdot 2} \end{matrix}

$\left\{\matrix{0 = \tau\rho_{12\cdot 1} -c_2 - c_1\rho_{1\cdot 2} \\ 0 = \tau\rho_{12\cdot 2} -c_1 - c_2\rho_{1\cdot 2}}\right.$

Quand $\rho_{1\cdot 2}^2 \ne 1,$ ce système d'équations $(c_1,c_2)$ a une solution unique. Voici, par exemple, une matrice de nuage de points d'un ensemble de données de $100$ valeurs dans lesquelles $(x_i)$ avoir une distribution normale bivariée avec corrélation $\rho_{1\cdot 2}=-0.99$ mais le $x_i$ avoir une corrélation nulle avec $x_1x_2$ :

Parce que $x_1x_2$ est sans corrélation avec ("orthogonal à") à la fois le $x_i,$ l'introduire dans n'importe quel modèle linéaire ne créera aucun problème.

Comme le suggère cet exemple, cette situation est la norme car elle a tendance à se produire lorsque le $x_i$ ont été centrés. En d'autres termes, si vous centrez vos variables avant de créer une interaction, vous n'aurez généralement pas de problèmes avec une colinéarité supplémentaire.

De fortes corrélations avec le produit

Les équations $(*)$ peut également être résolu pour produire de fortes corrélations. Nous n'avons même pas besoin d'aller jusqu'à résoudre les équations exactement (ce qui est difficile), car il existe un raccourci simple: en redimensionnant l'un des $x_i$ pour être proche de zéro et en y ajoutant une constante, nous ne changerons pas leur corrélation, mais alors le produit sera presque égal à un multiple de l'autre des $x_i,$ les rendant ainsi fortement corrélés.

Voici un exemple basé sur le précédent. Dans cet exemple, $x_2$ a été changé en $1 + x_2 / 100$ pour que $x_1x_2$ est approximativement égal à $x_1,$ ce qui en fait fortement positivement corrélé avec $x_1x_2.$ En effet, $\rho_{12\cdot 1} = 0.999878$ et $\rho_{12\cdot 2} = -0.9898793$ dans cet exemple.

— whuber
source

Parfait! Merci pour l'explication approfondie :)

— hlinee