Dans les modèles sans termes d'interaction (c'est-à-dire sans termes construits comme le produit d'autres termes), le coefficient de régression de chaque variable est la pente de la surface de régression dans la direction de cette variable. Elle est constante, quelles que soient les valeurs des variables, et peut donc être considérée comme mesurant l'effet global de cette variable.
Dans les modèles avec interactions, cette interprétation peut être faite sans autre qualification uniquement pour les variables qui ne sont impliquées dans aucune interaction. Pour une variable impliquée dans des interactions, le coefficient de régression «à effet principal» - c'est-à-dire le coefficient de régression de la variable seul - est la pente de la surface de régression dans la direction de cette variable lorsque toutes les autres variables qui interagir avec cette variable ont des valeurs nulles et le test de signification du coefficient se réfère à la pente de la surface de régression uniquement dans cette région de l'espace de prédiction. Puisqu'il n'est pas nécessaire qu'il y ait réellement des données dans cette région de l'espace, le coefficient d'effet principal peut avoir peu de ressemblance avec la pente de la surface de régression dans la région de l'espace prédictif où les données ont été réellement observées.
En termes anova, le coefficient d'effet principal est analogue à un effet principal simple, pas un effet principal global. De plus, cela peut faire référence à ce qui dans un plan anova serait des cellules vides dans lesquelles les données ont été fournies par extrapolation à partir de cellules avec des données.
Pour une mesure de l'effet global de la variable qui est analogue à un effet principal global dans anova et qui n'extrapole pas au-delà de la région dans laquelle les données ont été observées, nous devons regarder la pente moyenne de la surface de régression dans la direction de la variable , où la moyenne est supérieure aux N cas réellement observés. Cette pente moyenne peut être exprimée comme une somme pondérée des coefficients de régression de tous les termes du modèle qui impliquent la variable en question.
Les poids sont difficiles à décrire mais faciles à obtenir. Le coefficient d'effet principal d'une variable obtient toujours un poids de 1. Pour chaque autre coefficient d'un terme impliquant cette variable, le poids est la moyenne du produit des autres variables de ce terme. Par exemple, si nous avons cinq variables "brutes" x1, x2, x3, x4, x5
, plus quatre interactions bidirectionnelles (x1,x2), (x1,x3), (x2,x3), (x4,x5)
et une interaction tripartite (x1,x2,x3)
, alors le modèle est
y = b0 + b1*x1 + b2*x2 + b3*x3 + b4*x4 + b5*x5 +
b12*x1*x2 + b13*x1*x3 + b23*x2*x3 + b45*x4*x5 +
b123*x1*x2*x3 + e
et les principaux effets globaux sont
B1 = b1 + b12*M[x2] + b13*M[x3] + b123*M[x2*x3],
B2 = b2 + b12*M[x1] + b23*M[x3] + b123*M[x1*x3],
B3 = b3 + b13*M[x1] + b23*M[x2] + b123*M[x1*x2],
B4 = b4 + b45*M[x5],
B5 = b5 + b45*M[x4],
où M [.] désigne la moyenne de l'échantillon de la quantité à l'intérieur des parenthèses. Tous les termes du produit à l'intérieur des parenthèses sont parmi ceux qui ont été construits afin de faire la régression, donc un programme de régression devrait déjà les connaître et devrait pouvoir imprimer leurs moyens sur demande.
Dans les modèles qui n'ont que des effets principaux et des interactions bidirectionnelles, il existe un moyen plus simple d'obtenir les effets globaux: centrez [1] les variables brutes à leur moyenne. Cela doit être fait avant de calculer les conditions du produit et ne doit pas être fait pour les produits. Toutes les expressions M [.] Deviendront alors 0 et les coefficients de régression seront interprétables comme des effets globaux. Les valeurs des b changeront; les valeurs des B ne le seront pas. Seules les variables impliquées dans les interactions doivent être centrées, mais il n'y a généralement pas de mal à centrer d'autres variables mesurées. L'effet général du centrage d'une variable est qu'en plus de modifier l'ordonnée à l'origine, il ne modifie que les coefficients d'autres variables qui interagissent avec la variable centrée. En particulier, il ne modifie pas les coefficients des termes qui impliquent la variable centrée. Dans l'exemple donné ci-dessus, le centrage x1 changerait b0, b2, b3 et b23.
[1 - Le «centrage» est utilisé par différentes personnes d'une manière qui diffère juste assez pour semer la confusion. Tel qu'utilisé ici, "centrer une variable sur #" signifie soustraire # de tous les scores de la variable, convertir les scores originaux en écarts par rapport à #.]
Alors pourquoi ne pas toujours se concentrer sur les moyens, régulièrement? Trois raisons. Premièrement, les coefficients d'effet principal des variables non centrées peuvent eux-mêmes être intéressants. Le centrage dans de tels cas serait contre-productif, car il modifie les coefficients d'effet principal des autres variables.
Deuxièmement, le centrage rendra toutes les M [.] Expressions 0, et donc convertira les effets simples en effets globaux, uniquement dans les modèles sans interaction à trois voies ou plus . Si le modèle contient de telles interactions, alors les calculs b -> B doivent encore être effectués, même si toutes les variables sont centrées à leur moyenne.
Troisièmement, le centrage à une valeur telle que la moyenne, qui est définie par la distribution des prédicteurs au lieu d'être choisi rationnellement, signifie que tous les coefficients qui sont affectés par le centrage seront spécifiques à votre échantillon particulier. Si vous vous concentrez sur la moyenne, alors une personne qui tente de reproduire votre étude doit se concentrer sur votre moyenne, et non sur sa propre moyenne, si elle veut obtenir les mêmes coefficients que vous. La solution à ce problème consiste à centrer chaque variable sur une valeur centrale rationnellement choisie de cette variable qui dépend de la signification des scores et ne dépend pas de la distribution des scores. Cependant, les calculs b -> B restent nécessaires.
L'importance des effets globaux peut être testée par les procédures habituelles de test des combinaisons linéaires de coefficients de régression. Cependant, les résultats doivent être interprétés avec soin car les effets globaux ne sont pas des paramètres structurels mais dépendent du plan. On peut s'attendre à ce que les paramètres structurels - les coefficients de régression (non centrés ou avec un centrage rationnel) et la variance d'erreur restent invariants en cas de changements dans la distribution des prédicteurs, mais les effets globaux changeront généralement. Les effets globaux sont spécifiques à l'échantillon particulier et ne devraient pas se répercuter sur d'autres échantillons avec des distributions différentes sur les prédicteurs. Si un effet global est significatif dans une étude et non dans une autre, il peut ne refléter rien de plus qu'une différence dans la distribution des prédicteurs.