L'ordre des variables dans l'ANOVA est important, n'est-ce pas?


20

Ai-je raison de comprendre que l'ordre dans lequel les variables sont spécifiées dans une ANOVA multifactorielle fait une différence mais que l'ordre n'a pas d'importance lors d'une régression linéaire multiple?

Donc, en supposant un résultat tel que la perte de sang mesurée y et deux variables catégorielles

  1. méthode d'adénoïdectomie a ,
  2. méthode d'amygdalectomie b .

Le modèle y~a+best différent du modèle y~b+a(ou du moins mon implémentation en R semble l'indiquer).

Ai-je raison de comprendre que le terme ici est que l'ANOVA est un modèle hiérarchique puisqu'il attribue d'abord autant de variance qu'il le peut au premier facteur avant d'essayer d'attribuer la variance résiduelle au deuxième facteur?

Dans l'exemple ci-dessus, la hiérarchie est logique parce que je fais toujours l'adénoïdectomie avant de faire l'amygdalectomie, mais que se passerait-il si l'on avait deux variables sans ordre inhérent?


12
L'ordre est important dans les ANOVA aux conceptions déséquilibrées, c'est-à-dire lorsqu'il y a des tailles de cellules inégales. Ce sujet est souvent traité sous le titre de "types de sommes de carrés". Voir epm.sagepub.com/content/38/3/621.full.pdf+html et la réponse de chl
caracal


Je viens de prolonger une discussion plus ancienne sur la mienne en espérant que cela jettera un nouvel éclairage sur la question. Il a sûrement encore besoin de travail, et peut-être que quelqu'un a les nerfs pour l'aider à le modifier. Voici ce que j'ai jusqu'à présent: go.helms-net.de/stat/div/%28SSE%29%20ANovaRegression_SPSS_R.htm Il y a peut-être quelque chose d'intéressant avec le potentiel à extraire pour une réponse explicite à cette question ici.
Gottfried Helms

Réponses:


17

Cette question est évidemment venue d'une étude avec une conception bidirectionnelle déséquilibrée, analysée en R avec la aov()fonction; cette page fournit un exemple plus récent et détaillé de ce problème.

La réponse générale à cette question, comme à tant d'autres, est: "Cela dépend". Ici, cela dépend si le design est équilibré et, sinon, quelle saveur d'ANOVA est choisie.

Tout d'abord, cela dépend si le design est équilibré. Dans le meilleur des mondes possibles, avec un nombre égal de cas dans toutes les cellules d'un plan factoriel, il n'y aurait aucune différence en raison de l'ordre de saisie des facteurs dans le modèle, quelle que soit la manière dont l'ANOVA est effectuée. * Les cas en question , évidemment à partir d'une cohorte clinique rétrospective, semblent provenir d'un monde réel où un tel équilibre n'a pas été trouvé. Donc, l'ordre pourrait avoir de l' importance.

Deuxièmement, cela dépend de la façon dont l'ANOVA est effectuée, ce qui est quelque peu controversé. Les types d'ANOVA pour les conceptions non équilibrées diffèrent dans l'ordre d'évaluation des principaux effets et interactions. L'évaluation des interactions est fondamentale pour l'ANOVA bidirectionnelle et d'ordre supérieur, il y a donc des différends sur la meilleure façon de procéder. Voir cette page de validation croisée pour une explication et une discussion. Voir les détails et l'avertissement pour la fonction Anova()(avec un "A" majuscule) dans le manuel du carpackage pour une vue différente.

L'ordre des facteurs ne importe dans les conceptions asymétriques sous la valeur par défaut aov()dans R, qui utilise ce que l' on appelle type I tests. Il s'agit d'attributions séquentielles de variance à des facteurs dans l'ordre d'entrée dans le modèle, comme l'envisageait la présente question. L'ordre n'a pas d' importance avec les tests de type II ou de type III fournis par la Anova()fonction dans le carpackage en R. Ces alternatives, cependant, ont leurs propres inconvénients potentiels notés dans les liens ci-dessus.

Enfin, considérez la relation avec la régression linéaire multiple comme lm()dans R, qui est essentiellement le même type de modèle si vous incluez des termes d'interaction. L'ordre d'entrée des variables dans lm()n'a pas d'importance en termes de coefficients de régression et de valeurs de p rapportés par summary(lm()), dans lesquels un facteur catégoriel de niveau k est codé comme (k-1) variables fictives binaires et un coefficient de régression est rapporté pour chaque mannequin .

Il est cependant possible d'envelopper la lm()sortie avec anova()("a" en minuscules du statspackage R ) ou Anova()de résumer l'influence de chaque facteur sur tous ses niveaux, comme on peut s'y attendre en ANOVA classique. Ensuite, l'ordre des facteurs importera avec anova()comme pour aov(), et n'aura pas d'importance avec Anova(). De même, les litiges sur le type d'ANOVA à utiliser reviendraient. Il n'est donc pas sûr de supposer l'indépendance de l'ordre de la saisie des facteurs avec toutes les utilisations en aval des lm()modèles.


* Avoir un nombre égal d'observations dans toutes les cellules est suffisant mais, si je comprends bien, pas nécessaire pour que l'ordre des facteurs ne soit pas pertinent. Des types d'équilibre moins exigeants peuvent permettre l'indépendance de l'ordre.


En effet oui, ces données d'observation étaient déséquilibrées, très déséquilibrées.
Farrel

Espérons que ce commentaire obtienne toujours une réponse ici: vous dites que, dans le cadre d'un plan d'étude équilibré, l'estimation SS ne dépendra jamais de l'ordre, quel que soit le type de test anova (type I, II, III) choisi. Je ne sais pas si je comprends cela. en utilisant la fonction 'anova' dans R (qui utilise des tests de type I) sur un modèle linéaire basé sur des données équilibrées, sûrement l'ordre des fonctionnalités est important, non?
PejoPhylo

1
@PejoPhylo lorsque les données sont équilibrées, vous pouvez avoir ce qu'on appelle un plan orthogonal. Avec une conception orthogonale, il existe une façon unique de répartir les sommes des carrés entre les traitements et leurs interactions, de sorte que l'ordre d'entrée des traitements n'aura pas d'importance en ce qui concerne les estimations des effets et leurs valeurs de p. Cette page fournit une explication mathématique. Ce n'est pas immédiatement évident; la question que je viens de relier a été posée par un membre de ce site avec l'une des plus hautes réputations. Des données déséquilibrées peuvent détruire l'orthogonalité.
EdM

Merci beaucoup pour votre réponse @EdM
PejoPhylo Il y a

0

Le terme modèle hiérarchique fait référence à la structure entre les facteurs. Par exemple, une étude multicentrique est hiérarchique: vous avez les patients imbriqués dans les hôpitaux qui les traitent. Chaque hôpital traite les patients avec un placebo et du verum, mais la réception de chacun d'eux à l'hôpital A ou B est légèrement différente en raison d'un effet commun de l'hôpital régissant sur tous leurs patients (peut même être un effet d'interaction avec l'agent expérimental). C'est ce qu'on appelle l'effet hiérarchique.

Maintenant, vos méthodes d'ectomie peuvent être hiérarchiques: est-il plausible qu'une certaine méthode d'amygdalectomie soit légèrement différente (en soi, pas encore dans l'effet, car c'est ce que vous allez estimer et tester) en fonction de la méthode d'adénoïdectomie utilisée auparavant sur le même patient? Si oui, vous devez le spécifier dans votre modèle.

Votre observation selon laquelle y ~ a + b peut être différent de y ~ b + a indique qu'il y a quelque chose qui ne va pas. Les effets additifs font la navette, il ne devrait donc pas y avoir de différence (à part de petites différences numériques). Il n'est ni plausible ni souhaité que l'effet des méthodes de chirurgie puisse dépendre de l'ordre dans lequel le statisticien spécifie plus tard les effets. Vous avez donc probablement choisi la mauvaise approche pour alimenter Rles données.


1
Je ne suis pas sûr de suivre le dernier paragraphe. Dans l'ANOVA factorielle déséquilibrée, les valeurs de p pour chaque facteur calculées via la somme des carrés de type I (séquentielle) dépendront certainement de l'ordre des facteurs. Je crois que c'est tout le point de la question.
amibe dit Réintégrer Monica

Je ne sais pas si @Farrel a obtenu un SS de type I. Je me souviens avoir déjà vu SAS produire différents SS de type III en raison d'un tri disparate dans l'ensemble de données et la déclaration de modèle. Peut-être que cela peut aussi arriver avec R?
Horst Grünbusch

2
Je ne peux pas le savoir et il ne se souviendra peut-être pas de lui-même étant donné que le Q a été demandé il y a cinq ans. Mais je pense que c'est de loin l'interprétation la plus parcimonieuse de ses mots "Le modèle y ~ a + b est différent du modèle y ~ b + a (ou du moins mon implémentation dans R semble l'indiquer)", en particulier compte tenu du fait cette aovcommande dans R utilise SS de type I par défaut. Lorsque j'ai offert la prime, je m'attendais à obtenir une réponse expliquant les problèmes derrière la conception anova déséquilibrée, les différences entre les SS de type I / II / III et certains commentaires sur la régression linéaire ou non des mêmes problèmes.
amibe dit Reinstate Monica

1
Non. La matrice de conception est singulière en anova même si elle est équilibrée, lorsqu'il n'y a pas de différence entre SS I / II / III. Les SS I / II / III ne diffèrent que dans le cas déséquilibré car les facteurs deviennent non orthogonaux (contrairement au cas équilibré). À ma connaissance, cela correspond à une régression linéaire avec des prédicteurs corrélés, ce qui est une situation très courante. Ma réponse est que le même problème se produit également dans la régression, c'est juste qu'il est standard de calculer la valeur de p d'un prédicteur après avoir pris en compte les effets de tous les autres prédicteurs; cela correspond au Type III SS en anova.
amibe dit Réintégrer Monica

1
De telles questions sur l'ordre des variables dans ANOVA continuent de surgir, comme celle-ci a migré hier depuis Stack Overflow. Je pense qu'il est prudent de supposer que cette question de 5 ans était basée sur la même aovchose que lm, et il serait utile d'avoir une réponse à cette question du type indiqué par @amoeba dans le commentaire du 12 mai 14:31. .
EdM
En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.