Cette question est évidemment venue d'une étude avec une conception bidirectionnelle déséquilibrée, analysée en R avec la aov()
fonction; cette page fournit un exemple plus récent et détaillé de ce problème.
La réponse générale à cette question, comme à tant d'autres, est: "Cela dépend". Ici, cela dépend si le design est équilibré et, sinon, quelle saveur d'ANOVA est choisie.
Tout d'abord, cela dépend si le design est équilibré. Dans le meilleur des mondes possibles, avec un nombre égal de cas dans toutes les cellules d'un plan factoriel, il n'y aurait aucune différence en raison de l'ordre de saisie des facteurs dans le modèle, quelle que soit la manière dont l'ANOVA est effectuée. * Les cas en question , évidemment à partir d'une cohorte clinique rétrospective, semblent provenir d'un monde réel où un tel équilibre n'a pas été trouvé. Donc, l'ordre pourrait avoir de l' importance.
Deuxièmement, cela dépend de la façon dont l'ANOVA est effectuée, ce qui est quelque peu controversé. Les types d'ANOVA pour les conceptions non équilibrées diffèrent dans l'ordre d'évaluation des principaux effets et interactions. L'évaluation des interactions est fondamentale pour l'ANOVA bidirectionnelle et d'ordre supérieur, il y a donc des différends sur la meilleure façon de procéder. Voir cette page de validation croisée pour une explication et une discussion. Voir les détails et l'avertissement pour la fonction Anova()
(avec un "A" majuscule) dans le manuel du car
package pour une vue différente.
L'ordre des facteurs ne importe dans les conceptions asymétriques sous la valeur par défaut aov()
dans R, qui utilise ce que l' on appelle type I tests. Il s'agit d'attributions séquentielles de variance à des facteurs dans l'ordre d'entrée dans le modèle, comme l'envisageait la présente question. L'ordre n'a pas d' importance avec les tests de type II ou de type III fournis par la Anova()
fonction dans le car
package en R. Ces alternatives, cependant, ont leurs propres inconvénients potentiels notés dans les liens ci-dessus.
Enfin, considérez la relation avec la régression linéaire multiple comme lm()
dans R, qui est essentiellement le même type de modèle si vous incluez des termes d'interaction. L'ordre d'entrée des variables dans lm()
n'a pas d'importance en termes de coefficients de régression et de valeurs de p rapportés par summary(lm())
, dans lesquels un facteur catégoriel de niveau k est codé comme (k-1) variables fictives binaires et un coefficient de régression est rapporté pour chaque mannequin .
Il est cependant possible d'envelopper la lm()
sortie avec anova()
("a" en minuscules du stats
package R ) ou Anova()
de résumer l'influence de chaque facteur sur tous ses niveaux, comme on peut s'y attendre en ANOVA classique. Ensuite, l'ordre des facteurs importera avec anova()
comme pour aov()
, et n'aura pas d'importance avec Anova()
. De même, les litiges sur le type d'ANOVA à utiliser reviendraient. Il n'est donc pas sûr de supposer l'indépendance de l'ordre de la saisie des facteurs avec toutes les utilisations en aval des lm()
modèles.
* Avoir un nombre égal d'observations dans toutes les cellules est suffisant mais, si je comprends bien, pas nécessaire pour que l'ordre des facteurs ne soit pas pertinent. Des types d'équilibre moins exigeants peuvent permettre l'indépendance de l'ordre.