Dans une régression, le terme d'interaction efface les deux effets directs associés. Dois-je abandonner l'interaction ou signaler le résultat? L'interaction ne faisait pas partie de l'hypothèse originale.
Dans une régression, le terme d'interaction efface les deux effets directs associés. Dois-je abandonner l'interaction ou signaler le résultat? L'interaction ne faisait pas partie de l'hypothèse originale.
Réponses:
Je pense que celui-ci est délicat; comme vous le laissez entendre, il y a un `` aléa moral '' ici: si vous n'aviez pas du tout regardé l'interaction, vous seriez libre et clair, mais maintenant que vous l'avez, il y a un soupçon de dragage de données si vous l'abandonnez.
La clé est probablement un changement dans la signification de vos effets lorsque vous passez du modèle des effets principaux uniquement au modèle d'interaction. Ce que vous obtenez pour les «effets principaux» dépend beaucoup de la façon dont vos traitements et contrastes sont codés. Dans R, le traitement par défaut contraste avec les premiers niveaux de facteur (ceux dont les prénoms sont classés par ordre alphabétique, sauf si vous avez fait tout votre possible pour les coder différemment) comme niveaux de base.
Dites (pour simplifier) que vous avez deux niveaux, «contrôle» et «trt», pour chaque facteur. Sans l'interaction, la signification du paramètre 'v1.trt' (en supposant que le traitement contraste comme c'est le cas par défaut dans R) est "différence moyenne entre 'v1.control' et 'v1.trt' group"; la signification du paramètre 'v2.trt' est "différence moyenne entre 'v2.control' et 'v2.trt'".
Avec l'interaction, 'v1.trt' est la différence moyenne entre 'v1.control' et 'v1.trt' dans le groupe 'v2.control' , et de même 'v2.trt' est la différence moyenne entre les groupes v2 dans le groupe Groupe 'v1.control'. Ainsi, si vous avez des effets de traitement assez faibles dans chacun des groupes de contrôle, mais un effet important dans les groupes de traitement, vous pouvez facilement voir ce que vous voyez.
La seule façon dont je peux voir cela se produire sans terme d'interaction significatif, cependant, c'est si tous les effets sont assez faibles (de sorte que ce que vous entendez vraiment par "l'effet a disparu" est que vous êtes passé de p = 0,06 à p = 0,04, à travers la ligne de signification magique).
Une autre possibilité est que vous `` utilisez trop de degrés de liberté '' - c'est-à-dire que les estimations des paramètres ne changent pas vraiment beaucoup, mais le terme d'erreur résiduel est suffisamment gonflé en devant estimer 4 autres [= (2- 1) * (5-1)] paramètres selon lesquels vos termes significatifs deviennent non significatifs. Encore une fois, je ne m'attendrais à cela qu'avec un petit ensemble de données / des effets relativement faibles.
Une solution possible consiste à résumer les contrastes, bien que cela soit également délicat - vous devez être convaincu que «l'effet moyen» est significatif dans votre cas. La meilleure chose à faire est de tracer vos données et de regarder les coefficients et de comprendre ce qui se passe en termes de paramètres estimés.
J'espère que ça t'as aidé.
Êtes-vous sûr que les variables ont été correctement exprimées? Considérons deux variables indépendantes et . L'énoncé du problème affirme que vous obtenez un bon ajustement dans le formulaire
S'il existe des preuves que la variance des résidus augmente avec , alors un meilleur modèle utilise une erreur multiplicative, dont une forme est
Cela peut être réécrit
c'est-à-dire, si vous ré-exprimez vos variables sous la forme
alors le modèle est linéaire et a probablement des résidus homoscédastiques:
et il se peut que et soient tous deux proches de 1.
La valeur de peut être découverte par des méthodes standard d' analyse exploratoire des données ou, parfois, est indiquée par la nature de la variable. (Par exemple, il pourrait s'agir d'une valeur minimale théorique atteignable par )
Supposons également que soit positif et important (dans le contexte des données) mais que soit sans conséquence. Ensuite, l'ajustement d'origine peut être ré-exprimé comme
où et les deux et sont petits. Ici, les termes croisés manquants et sont présumés suffisamment petits pour être inclus dans le terme d'erreur . Encore une fois, en supposant une erreur multiplicative et en prenant des logarithmes, on obtient un modèle avec uniquement des effets directs et sans interaction.θ 1 θ 2 θ 1 X 2 θ 2 X 1 ϵ
Cette analyse montre comment il est possible - même probablement dans certaines applications - d'avoir un modèle dans lequel les seuls effets semblent être des interactions. Cela se produit lorsque les variables (indépendantes, dépendantes ou les deux) vous sont présentées sous une forme inappropriée et que leurs logarithmes sont une cible plus efficace pour la modélisation. Les distributions des variables et des résidus initiaux fournissent les indices nécessaires pour déterminer si cela peut être le cas: les distributions asymétriques des variables et l'hétéroscédasticité des résidus (en particulier, ayant des variances à peu près proportionnelles aux valeurs prévues) sont les indicateurs.
Cela introduit généralement une multicolinéarité élevée car le produit sera fortement corrélé avec les deux variables d'origine. Avec la multicolinéarité, les estimations de paramètres individuels dépendent fortement des autres variables qui sont prises en compte - comme dans votre cas. Comme contre-mesure, le centrage des variables réduit souvent la multicolinéarité lorsque l'interaction est considérée.
Je ne sais pas si cela s'applique directement à votre cas puisque vous semblez avoir des prédicteurs catégoriques mais utilisez le terme "régression" au lieu de "ANOVA". Bien sûr, ce dernier cas est essentiellement le même modèle, mais seulement après avoir choisi le schéma de codage de contraste comme Ben l'a expliqué.
Cela peut être un problème d'interprétation, une mauvaise compréhension de ce qu'est réellement un coefficient dit "à effet direct".
Dans les modèles de régression avec des variables prédictives continues et sans termes d'interaction - c'est-à-dire sans termes construits comme le produit d'autres termes - le coefficient de chaque variable est la pente de la surface de régression dans la direction de cette variable. Elle est constante, quelles que soient les valeurs des variables, et est évidemment une mesure de l'effet de cette variable.
Dans les modèles avec interactions - c'est-à-dire avec des termes qui sont construits comme les produits d'autres termes - cette interprétation peut être faite sans autre qualification que pour les variables qui ne sont impliquées dans aucune interaction. Le coefficient d'une variable qui est impliqué dans les interactions est la pente de la surface de régression dans le sens de cette variable lorsque les valeurs de toutes les variables qui interagissent avec la variable en question sont égaux à zéro , et le test de signification du coefficient se réfère à la pente de la surface de régression uniquement dans cette région de l'espace de prédiction. Puisqu'il n'est pas nécessaire qu'il y ait réellement des données dans cette région de l'espace, le coefficient d'effet direct apparent peut avoir peu de ressemblance avec la pente de la surface de régression dans la région de l'espace prédictif où les données ont été réellement observées. Il n'y a pas de véritable "effet direct" dans de tels cas; le meilleur substitut est probablement «l'effet moyen»: la pente de la surface de régression dans le sens de la variable en question, prise à chaque point de données et moyenne sur tous les points de données. Pour plus d'informations, voir Pourquoi le centrage de variables indépendantes pourrait-il modifier les principaux effets avec modération?