Y compris l'interaction mais pas les effets principaux dans un modèle


85

Est-il toujours valable d'inclure une interaction bidirectionnelle dans un modèle sans inclure les effets principaux? Et si votre hypothèse ne concerne que l'interaction, avez-vous encore besoin d'inclure les principaux effets?


3
Ma philosophie est d'exécuter beaucoup de modèles, de vérifier leurs prédictions, de comparer, d'expliquer, d'exécuter plus de modèles.
Michael Bishop

11
Si les interactions ne sont significatives que lorsque les effets principaux sont dans le modèle, il se peut que les effets principaux soient significatifs et que les interactions ne le soient pas. Considérons un effet principal hautement significatif avec une variance de l'ordre de 100 et un autre effet principal non significatif pour lequel toutes les valeurs correspondent approximativement à un effet avec une très faible variance. Leur interaction n'est pas significative, mais l'effet d'interaction semblera être significatif si les effets principaux sont supprimés du modèle.
Thomas Levine

4
@Thomas votre première ligne doit-elle indiquer "si les interactions ne sont significatives que lorsque les effets principaux NE SONT PAS dans le modèle, ..."?
Glen

2
Oh oui, ça devrait!
Thomas Levine

Réponses:


55

Selon mon expérience, non seulement il est nécessaire d’avoir tous les effets d’ordre inférieur dans le modèle quand ils sont connectés à des effets d’ordre supérieur, mais il est également important de modéliser correctement (par exemple, permettre la non-linéarité) des effets principaux qui ne semblent pas liés à les facteurs dans les interactions d'intérêt. En effet, les interactions entre et x 2 peuvent être des substituts des principaux effets de x 3 et x 4 . Les interactions semblent parfois nécessaires car elles sont colinéaires avec des variables omises ou des termes non linéaires omis (par exemple, spline).x1x2x3x4


1
Cela signifie que nous devrions commencer à supprimer les termes de y ~ x1 * x2 * x3 * x4, en commençant par supprimer les termes de plus haut ordre, c'est-à-dire la méthode de suppression normale, n'est-ce pas?
Curieux

9
La suppression de termes n'est pas recommandée, sauf si vous pouvez tester des classes entières de termes en tant que "bloc". Par exemple, il peut être raisonnable de conserver ou de supprimer tous les termes d'interaction ou de conserver ou de supprimer toutes les interactions de troisième ou de quatrième ordre.
Frank Harrell

Quel est le problème avec la suppression de seulement certaines des interactions à un ordre particulier?
user1205901

3
Si vous avez un ordre complètement pré-spécifié qui n'a pas été déterminé en consultant les données, alors vous pouvez peut-être le faire. En général, vous aurez des problèmes de colinéarité et de multiplicité lorsque vous prenez plusieurs décisions en utilisant plusieurs valeurs de p.
Frank Harrell

2
Je pense que cette réponse n’est pas claire et ne répond que partiellement à la question. En effet, cette réponse indique qu’il est nécessaire de modéliser l’effet principal, mais ne dit pas s’il est valide de le régresser pour se concentrer uniquement sur l’interaction, qu’elle est utilisée dans certains modèles comme le gPPI (voir ma réponse). au dessous de).
Gaborous

37

Vous demandez si c'est jamais valide. Permettez-moi de vous donner un exemple commun, dont l'élucidation peut vous suggérer des approches analytiques supplémentaires.

L’exemple le plus simple d’interaction est un modèle avec une variable dépendante et deux variables indépendantes X , Y sous la formeZXY

Z=α+βX+γY+δXY+ε,

avec une variable aléatoire à long terme ayant espérance nulle, et en utilisant des paramètres alpha , β ' , γ ' , et δ ' . Il est souvent utile de vérifier si δ ′ se rapproche de β γ , car une expression algébriquement équivalente du même modèle estεα,β,γ,δδβγ

Z=α(1+βX+γY+δXY)+ε

=α(1+βX)(1+γY)+α(δβγ)XY+ε

(où , etc.).β=αβ

D' où, s'il y a une raison de supposer , on peut l' absorber dans le terme d'erreur ε . Cela donne non seulement une "interaction pure", mais également sans terme constant. Cela suggère fortement de prendre des logarithmes. Une certaine hétéroscédasticité dans les résidus, c'est-à-dire une tendance des résidus associés à des valeurs plus grandes de Z à être plus grandes en valeur absolue que la moyenne, irait également dans cette direction. Nous voudrions alors explorer une formulation alternative(δβγ)0εZ

log(Z)=log(α)+log(1+βX)+log(1+γY)+τ

avec iid erreur aléatoire . De plus, si nous nous attendons à ce que β X et γ Y soient grands par rapport à 1 , nous proposerons simplement le modèleτβXγY1

bûche(Z)=(bûche(α)+bûche(β)+bûche(γ))+bûche(X)+bûche(Y)+τ

=η+bûche(X)+bûche(Y)+τ.

Ce nouveau modèle n'a qu'un seul paramètre au lieu de quatre paramètres ( α , β , etc.) soumis à une relation quadratique ( δ = β γ ), une simplification considérable.ηαβδ=βγ

Je ne dis pas que c'est une étape nécessaire, voire la seule, mais je suggère que ce type de réarrangement algébrique du modèle vaut généralement la peine d'être envisagé chaque fois que des interactions seules semblent être significatives.

Les chapitres 10 à 13 de l' EDA de Tukey contiennent d' excellents moyens d'explorer des modèles avec interaction, en particulier avec seulement deux et trois variables indépendantes .


Pouvez-vous donner un exemple du moment où vous seriez capable de supposer que serait approximativement égal à zéro? Il m'est difficile de penser à ces termes par rapport aux termes d'origine et à leur signification. δβγ
DJing

@djhocking Toute situation dans laquelle la formulation alternative est un bon modèle impliquera nécessairement dans le premier modèle. Un cas particulier est le modèle final, qui est une simple relation linéaire entre log ( Z ) et les logs de X et Y , équivalent à une relation multiplicative Z X Y sur l’échelle d’origine. De telles relations abondent dans la nature - il dit simplement Z est directement et séparément proportionnelle à la fois X et Y .α(δ-βγ)0bûche(Z)XYZαXYZXY
whuber

30

Bien que les manuels scolaires disent souvent qu'il ne faut jamais inclure une interaction dans un modèle sans les effets principaux correspondants, il existe certainement des exemples où cela serait parfaitement logique. Je vais vous donner l'exemple le plus simple que je puisse imaginer.

Supposons que les sujets assignés au hasard à deux groupes soient mesurés deux fois, une fois au début (juste après la randomisation) et une fois après le groupe T, recevant un traitement quelconque, contrairement au groupe C. Ensuite, un modèle de mesures répétées pour ces données inclurait un effet principal pour une occasion de mesure (une variable muette égale à 0 pour la référence et 1 pour le suivi) et un terme d'interaction entre le groupe factice du groupe (0 pour C, 1 pour T ) et le mannequin de temps.

L'interception du modèle estime ensuite le score moyen des sujets au départ (quel que soit le groupe dans lequel ils se trouvent). Le coefficient pour le mannequin de mesure indique le changement de groupe témoin entre la base et le suivi. Et le coefficient du terme d'interaction indique l'ampleur de la modification dans le groupe de traitement par rapport au groupe de contrôle.

Ici, il n'est pas nécessaire d'inclure l'effet principal pour le groupe, car au départ, les groupes sont équivalents par définition en raison de la randomisation.

On pourrait bien sûr faire valoir que l’effet principal pour le groupe devrait toujours être inclus, de sorte que, si la randomisation échouait, cela serait révélé par l’analyse. Toutefois, cela revient à tester les moyennes de référence des deux groupes. Et il y a beaucoup de gens qui s'inquiètent après avoir testé les différences de base dans les études randomisées (bien sûr, il y en a aussi beaucoup qui trouvent cela utile, mais c'est un autre problème).


4
Des problèmes surviennent lorsque la mesure de temps zéro (référence) est utilisée comme première variable de réponse. Le niveau de référence est souvent utilisé comme critère d’entrée pour l’étude. Par exemple, une étude peut inclure des patients présentant une pression artérielle systolique (pb)> 140, puis effectuer un traitement randomisé sur 2 traitements et suivre les pb. Initialement, bp a une distribution tronquée et les mesures ultérieures seront plus symétriques. Il est désordonné de modéliser 2 formes distributionnelles dans le même modèle. Il existe de nombreuses autres raisons de traiter la base de référence comme une covariable de base.
Frank Harrell

3
C'est un bon point, mais des études récentes suggèrent que ce n'est pas un problème. En fait, il semble qu'il y ait plus d'inconvénients à utiliser les scores de base comme covariable. Voir: Liu, GF, et al. (2009). Le scénario de référence doit-il être une variable covariante ou dépendante dans les analyses de changement par rapport aux critères de base dans les essais cliniques? Statistics in Medicine, 28, 2509-2530.
Wolfgang

3
J'ai lu ce papier. Cela n’est pas convaincant et Liu n’a pas étudié divers types de situations d’essais cliniques que j’ai décrites. Vous trouverez d'autres arguments à l' adresse biostat.mc.vanderbilt.edu/wiki/pub/Main/RmS/course2.pdf dans le chapitre consacré à l'analyse des données (longitudinales) en série.
Frank Harrell

1
Merci pour le lien. Je suppose que vous faites référence à la discussion au 8.2.3. Ce sont des points intéressants, mais je ne pense pas que cela donne une réponse définitive. Je suis sûr que le papier de Liu et al. Ce n’est pas non plus la solution ultime, mais cela suggère, par exemple, que la non-normalité des valeurs de base n’est pas un problème crucial. Peut-être s'agit-il d'un sujet de discussion séparé, puisqu'il ne concerne pas directement la question du PO.
Wolfgang

2
Oui, cela dépend de la quantité de non-normalité. Pourquoi compter sur la bonne fortune lors de la formulation d'un modèle? Il existe également de nombreuses raisons purement philosophiques de considérer les mesures de temps zéro comme des mesures de base (voir les citations de Senn et Rochon dans mes notes).
Frank Harrell

19

La raison pour conserver les principaux effets dans le modèle est identifiabilité. Par conséquent, si le but est d'inférence statistique sur chacun des effets, vous devez conserver les effets principaux dans le modèle. Cependant, si votre objectif de modélisation est uniquement de prédire de nouvelles valeurs, il est parfaitement légitime de n'inclure que l'interaction si cela améliore la précision prédictive.


5
Pouvez-vous être un peu plus explicite sur le problème de l'identifiabilité?
ocram

6
Je ne pense pas qu'un modèle sans effets principaux soit nécessairement non identifié. Peut-être que vous voulez dire "interprétabilité" plutôt que "identifiabilité" (qui est un terme technique avec une définition précise)
JMS,

6
@ JMS: Oui, cela tue l’interprétabilité. Cependant, le terme "identifiabilité" est utilisé différemment par les statisticiens et par les spécialistes des sciences sociales. Je voulais dire le dernier, où (en gros) vous voulez identifier chaque paramètre statistique avec une construction particulière. En supprimant l'effet principal, vous ne pouvez plus faire correspondre construction à paramètre.
Galit Shmueli

13

c’est implicite dans de nombreuses réponses données par d’autres, mais le point simple est que les modèles avec un terme de produit mais avec le modérateur et le prédicteur ne sont que des modèles différents. Déterminez ce que chacun signifie en fonction du processus que vous modélisez et si un modèle sans modérateur / prédicteur est plus logique compte tenu de votre théorie ou de votre hypothèse. L'observation que le terme produit est significatif mais que lorsque le modérateur et le prédicteur ne sont pas inclus ne vous dit rien (sauf peut-être que vous pêchez pour "l'importance") sans une explication convaincante de la raison pour laquelle il est logique de les laisser de côté. .


Je suis venu ici pour étudier l’interprétation des principaux effets en présence d’un terme d’interaction significatif et cette réponse a beaucoup aidé. Merci!
Patrick Williams

9

On peut dire que cela dépend de l'utilisation que vous faites de votre modèle. Mais je n'ai jamais vu de raison de ne pas utiliser et décrire des modèles avec des effets principaux, même dans les cas où l'hypothèse ne concerne que l'interaction.


Que se passe-t-il si l'interaction n'est significative que lorsque les effets principaux ne sont pas dans le modèle?
Glen

3
@Glen - Il y a beaucoup de choses à considérer autres que la signification statistique. Voir ça . Mieux vaut examiner votre ajustement global du modèle (tracez vos résidus par rapport à vos prédictions pour chaque modèle que vous ajustez), votre théorie et vos motivations pour la modélisation.
Michael Bishop

7

J'emprunterai un paragraphe du livre Une introduction à l'analyse de survie à l'aide de Stata de M.Cleves, R.Gutierrez, W.Gould, Y.Marchenko, édité par Stata Press, pour répondre à votre question.

Il est courant de lire que les effets d'interaction ne doivent être inclus dans le modèle que lorsque les effets principaux correspondants sont également inclus, mais il n'y a rien de mal à inclure des effets d'interaction eux-mêmes. [...] Le but d'un chercheur est de paramétrer ce qui est raisonnablement vraisemblable pour les données tenant compte du problème rencontré et non pas simplement suite à une ordonnance.


3
Conseil absolument terrible.
Frank Harrell

3
@ Frank, pourriez-vous développer votre commentaire? A première vue, "paramétrer ce qui est raisonnablement susceptible de se produire pour les données" a beaucoup de sens.
whuber

6
Voir stats.stackexchange.com/questions/11009/… . Les données sont incapables de vous dire ce qui est vrai, et une telle approche dépend fortement de l'origine de la mesure pour les variables multipliées. L’évaluation des effets d’interaction isolés de la température en degrés Fahrenheit donnera une image différente de celle obtenue avec Celsius.
Frank Harrell

@ Frank: Merci, je l'ai trouvé :-). Cela fait maintenant partie de ce fil.
whuber

7

Les deux x et y seront en corrélation avec xy (sauf si vous avez pris une mesure spécifique pour éviter cela en utilisant le centrage). Ainsi, si vous obtenez un effet d'interaction substantiel avec votre approche, cela équivaudra probablement à un ou plusieurs effets principaux se faisant passer pour une interaction. Cela ne produira pas de résultats clairs et interprétables. Ce qui est souhaitable, c'est plutôt de voir à quel point l'interaction peut expliquer au-delà des effets principaux, en incluant x , y et (de préférence dans une étape ultérieure) xy .

En ce qui concerne la terminologie: oui, β 0 est appelée "constante". D'autre part, "partiel" a des significations spécifiques dans la régression et je ne voudrais donc pas utiliser ce terme pour décrire votre stratégie ici.

Quelques exemples intéressants qui apparaîtront une fois dans une lune bleue sont décrits à ce fil .


7

Je suggérerais que c'est simplement un cas particulier d'incertitude de modèle. D'un point de vue bayésien, vous traitez simplement cela de la même manière que vous traiteriez tout autre type d'incertitude, soit:

  1. Calculer sa probabilité, s'il s'agit de l'objet d'intérêt
  2. L'intégration ou la moyenne, si cela ne vous intéresse pas, mais peut quand même affecter vos conclusions

Hjent:L'interaction entre A et B est significative
je
P(Hjent|je)=P(Hjent|je)P(|Hjentje)P(|je)
P(|Hjentje)
P(|Hjentje)=Σm=1NMP(Mm|Hjentje)=Σm=1NMP(Mm|Hjentje)P(|MmHjentje)
MmNM
P(Hjent|je)=P(Hjent|je)P(|je)Σm=1NMP(Mm|Hjentje)P(|MmHjentje)
=1P(|je)Σm=1NMP(Mm|je)P(MmHjent|je)P(Mm|je)=Σm=1NMP(Mm|je)P(Hjent|Mmje)

P(Hjent|Mmje)P(Mm|je)1P(Hjent|Mjje)P(Hjent|Mkje)


5

C'est très rarement une bonne idée d'inclure un terme d'interaction sans les effets principaux impliqués. David Rindskopf du CCNY a rédigé des articles sur ces rares cas.


5

Il existe divers processus dans la nature qui impliquent uniquement un effet d'interaction et des lois qui les décrivent. Par exemple, la loi d'Ohm. En psychologie, vous avez par exemple le modèle de performance de Vroom (1964): Performance = Capacité x Motivation. Maintenant, vous pouvez vous attendre à trouver un effet d'interaction significatif lorsque cette loi est vraie. Malheureusement, ce n'est pas le cas. Vous pouvez facilement trouver deux effets principaux et un effet d’interaction non significatif (pour une démonstration et une explication plus détaillée, voir Landsheer, van den Wittenboer et Maassen (2006), Social Science Research 35, 274-294). Le modèle linéaire ne convient pas très bien à la détection d'effets d'interaction. Ohm n'a peut-être jamais trouvé sa loi lorsqu'il utilisait des modèles linéaires.

En conséquence, l'interprétation des effets d'interaction dans les modèles linéaires est difficile. Si vous avez une théorie qui prédit un effet d'interaction, vous devez l'inclure, même lorsqu'elle est insignifiante. Vous voudrez peut-être ignorer les effets principaux si votre théorie les exclut, mais vous trouverez cela difficile, car des effets principaux significatifs se retrouvent souvent dans le cas d'un véritable mécanisme de génération de données qui n'a qu'un effet multiplicatif.

Ma réponse est la suivante: oui, il peut être valide d’inclure une interaction bidirectionnelle dans un modèle sans inclure les effets principaux. Les modèles linéaires sont d'excellents outils pour estimer les résultats d'une grande variété de mécanismes de génération de données, mais leur formule ne peut pas être facilement interprétée comme une description valide du mécanisme de génération de données.


4

Celui-ci est délicat et m'est arrivé dans mon dernier projet. Je l’expliquerais ainsi: supposons que les variables A et B soient significatives de manière indépendante et que, d’un point de vue commercial, vous pensiez qu’une interaction entre A et B semblait bonne. Vous avez inclus l'interaction qui s'est révélée significative, mais B a perdu sa signification. Vous expliqueriez votre modèle au départ en montrant deux résultats. Les résultats montreraient qu'initialement B était significatif mais que vu à la lumière de A, il a perdu son éclat. Donc, B est une bonne variable, mais seulement à la lumière de divers niveaux de A (si A est une variable catégorique). C'est comme dire qu'Obama est un bon chef lorsqu'il est vu à la lumière de son armée SEAL. Donc, le sceau Obama * sera une variable significative. Mais Obama, vu seul, pourrait ne pas être aussi important. (Aucune offense à Obama, juste un exemple.)


1
Ici, c'est un peu l'inverse. L'interaction (d'intérêt) n'est significative que lorsque les effets principaux ne sont pas dans le modèle.
Glen

3

F = m * a, la force est égale à la masse multipliée par l'accélération.

Il n'est pas représenté sous la forme F = m + a + ma ou une autre combinaison linéaire de ces paramètres. En effet, seule l'interaction entre la masse et l'accélération aurait un sens physique.


2
Ce qui s’applique à une équation physique incontestable qui ne laisse aucune place à la variabilité ne s’applique pas nécessairement ou n’est pas nécessairement vrai, exact ou productif lors de la modélisation de données caractérisées par la variabilité.
rolando2

2

Interaction avec et sans effet principal.  Le bleu est une condition.  Rouge un autre.  Leurs effets respectifs sont testés sur trois mesures consécutives.

Est-il toujours valable d'inclure une interaction à double sens sans effet principal?

Oui, cela peut être valable et même nécessaire. Si, par exemple, dans 2. vous incluez un facteur pour l'effet principal (différence moyenne entre l'état bleu et le rouge), cela aggravera le modèle.

Et si votre hypothèse ne concerne que l'interaction, avez-vous encore besoin d'inclure les principaux effets?

Votre hypothèse peut être vraie indépendamment de l’effet principal. Mais le modèle en aura peut-être besoin pour décrire le processus sous-jacent. Alors oui, vous devriez essayer avec et sans.

Remarque: Vous devez centrer le code pour la variable indépendante "continue" (mesure dans l'exemple). Sinon, les coefficients d'interaction dans le modèle ne seront pas distribués symétriquement (pas de coefficient pour la première mesure dans l'exemple).



1

Oui, cela peut être valable, bien que ce soit rare. Mais dans ce cas, vous devez encore modéliser les principaux effets, que vous régresserez ensuite.

En effet, dans certains modèles, seule l’interaction est intéressante, comme les tests de médicaments / les modèles cliniques. C’est par exemple la base du modèle d’interactions psycho-physiologiques généralisées (IPPG): y = ax + bxh + chx/ysont les voxels / régions d’intérêt et hles conceptions de bloc / événements.

Dans ce modèle, les deux aet cseront régressés, seuls bseront retenus pour l'inférence (les coefficients bêta). En effet, à la fois aet creprésentent une activité parasite dans notre cas, et ne breprésente ce qui ne peut être expliquée par une activité parasite, l'interaction avec la tâche.


1

La réponse courte: Si vous incluez l'interaction dans les effets fixes, les effets principaux sont automatiquement inclus, que vous les incliniez ou non dans votre code. . La seule différence est votre paramétrisation, c'est-à-dire la signification des paramètres dans votre modèle (par exemple, s'agit-il de moyennes de groupe ou de différences par rapport aux niveaux de référence)

UNEBUNE+B+UNEBUNEB sont des facteurs (catégoriques).

Y~N(ξ,σ2jen)XUNEXBXUNEBξ{XUNE,XB,XUNEB}ξ{XUNEB}{XUNEB}={XUNE,XB,XUNEB}

Je viens de voir que David Beede a fourni une réponse très similaire (excuses), mais je pensais que je laisserais cela en place pour ceux qui répondent bien à une perspective d'algèbre linéaire.

En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.