Dois-je inclure un argument pour demander des sommes de carrés de type III dans ezANOVA?

16

J'ai développé le package ez pour R comme un moyen d'aider les gens à passer des packages de statistiques comme SPSS à R. Ceci est (espérons-le) réalisé en simplifiant la spécification des différentes versions d'ANOVA et en fournissant une sortie de type SPSS (y compris les tailles d'effet et l'hypothèse tests), entre autres fonctionnalités. La ezANOVA()fonction sert principalement d'enveloppe car::Anova(), mais la version actuelle de ezANOVA()n'implémente que des sommes de carrés de type II, tandis qu'elle car::Anova()permet de spécifier des sommes de carrés de type II ou -III. Comme je m'y attendais peut-être, plusieurs utilisateurs ont demandé que je fournisse un argument enezANOVA()qui permet à l'utilisateur de demander le type II ou le type III. J'ai été réticent à le faire et à exposer mon raisonnement ci-dessous, mais j'apprécierais la contribution de la communauté sur mon raisonnement ou sur tout autre raisonnement portant sur la question.

Raisons de ne pas inclure d'argument "SS_type" dans ezANOVA():

La différence entre les carrés de somme de type I, II et III n'apparaît que lorsque les données sont déséquilibrées, auquel cas je dirais que l'amélioration du déséquilibre par une collecte de données plus avantageuse que la manipulation du calcul de l'ANOVA est plus bénéfique.
La différence entre les types II et III s'applique aux effets d'ordre inférieur qui sont qualifiés par des effets d'ordre supérieur, auquel cas je considère les effets d'ordre inférieur scientifiquement sans intérêt. (Mais voir ci-dessous pour une complication possible de l'argument)
Pour les rares cas où (1) et (2) ne s'appliquent pas (lorsque la collecte de données est impossible et que le chercheur a un intérêt scientifique valable pour un effet principal qualifié que je ne peux pas imaginer actuellement), on peut relativement facilement modifier la ezANOVA()source ou de employer car::Anova()elle - même pour réaliser des tests de type III. De cette façon, je vois l'effort / compréhension supplémentaire requis pour obtenir des tests de type III comme un moyen par lequel je peux m'assurer que seuls ceux qui savent vraiment ce qu'ils font vont dans cette voie.

Maintenant, le demandeur de type III le plus récent a souligné que l'argument (2) est affaibli par l'examen des circonstances dans lesquelles des effets d'ordre supérieur existants mais "non significatifs" peuvent biaiser le calcul des sommes des carrés pour les effets d'ordre inférieur. Dans de tels cas, on peut imaginer qu'un chercheur se pencherait sur l'effet d'ordre supérieur, et voyant qu'il est "non significatif", se tourner vers une tentative d'interprétation des effets d'ordre inférieur qui, à l'insu du chercheur, ont été compromis. Ma première réaction est que ce n'est pas un problème avec des sommes de carrés, mais avec des valeurs de p et la tradition du test d'hypothèse nulle. Je soupçonne qu'une mesure plus explicite des preuves, comme le rapport de vraisemblance, pourrait être plus susceptible de donner une image moins ambiguë des modèles pris en charge conformément aux données. Cependant, je n'ai pas

r anova sums-of-squares

— Mike Lawrence
source

2

En bref - oui. Simplement pour permettre la cohérence avec les autres packages (même si le résultat était "mauvais" d'une manière ou d'une autre - auquel cas un massage d'avertissement conviendrait). Et merci pour votre incroyable package!

— Tal Galili

Quand j'ai écrit "packages", je voulais dire d'autres packages statistiques (comme SPSS et SAS) - Je suis content que d'autres aient poussé le sujet plus loin que moi :)

— Tal Galili

2

Comme beaucoup le savent déjà, le paquet ez actuel (version 3) a mis à jour ezANOVA, qui a des arguments pour SS Type et retourne un modèle aov.

— jiggysoo

9

Juste pour amplifier - je suis le demandeur le plus récent, je crois.

En commentaire spécifique sur les points de Mike:

Il est clairement vrai que la différence I / II / III ne s'applique qu'aux prédicteurs corrélés (dont les plans déséquilibrés sont l'exemple le plus courant, certainement dans l'ANOVA factorielle) - mais cela me semble être un argument qui rejette l'analyse de la situation déséquilibrée (et donc tout débat de type I / II / III). Cela peut être imparfait, mais c'est ainsi que les choses se passent (et dans de nombreux contextes, les coûts de la collecte de données supplémentaires l'emportent sur le problème statistique, malgré les mises en garde).
C'est tout à fait juste et représente la chair de la plupart des arguments "II contre III, favorisant II" que j'ai rencontrés. Le meilleur résumé que j'ai rencontré est Langsrud (2003) "ANOVA pour les données déséquilibrées: utilisez le type II au lieu des sommes de carrés de type III", Statistics and Computing 13: 163-167 (J'ai un PDF si l'original est difficile à trouver ). Il soutient (en prenant le cas des deux facteurs comme exemple de base) que s'il y a une interaction, il y a une interaction, donc la prise en compte des effets principaux n'a généralement pas de sens (un point évidemment juste) - et s'il n'y a pas d'interaction, l'analyse de type II de les effets principaux sont plus puissants que le Type III (sans aucun doute), vous devriez donc toujours opter pour le Type II. J'ai vu d'autres arguments (par exemple Venables,
Et je suis d'accord avec cela: si vous avez une interaction mais que vous avez également des questions sur l'effet principal, vous êtes probablement sur le territoire du bricolage.

Il y a clairement ceux qui veulent juste le type III parce que SPSS le fait, ou une autre référence à l'autorité supérieure statistique. Je ne suis pas entièrement contre ce point de vue, si cela se résume à un choix de beaucoup de gens qui s'en tiennent à SPSS (contre lequel j'ai certaines choses, à savoir du temps, de l'argent et des conditions d'expiration de licence) et de Type III SS, ou beaucoup de les gens qui passent à R et Type III SS. Cependant, cet argument est clairement boiteux statistiquement.

Cependant, l'argument que j'ai trouvé plutôt plus substantiel en faveur du type III est celui avancé de manière indépendante par Myers & Well (2003, "Research Design and Statistical Analysis", pp. 323, 626-629) et Maxwell & Delaney (2004, " Designing Experiments and Analyzing Data: A Model Comparison Perspective ", pp. 324-328, 332-335). C'est comme suit:

s'il y a une interaction, toutes les méthodes donnent le même résultat pour la somme d'interaction des carrés
Le type II suppose qu'il n'y a pas d'interaction pour son test des effets principaux; le type III ne
Certains (par exemple Langsrud) soutiennent que si l'interaction n'est pas significative, alors vous avez raison de supposer qu'il n'y en a pas, et de regarder les effets principaux (plus puissants) de Type II
Mais si le test de l'interaction est sous-alimenté, mais qu'il y a une interaction, l'interaction peut apparaître "non significative" tout en conduisant à une violation des hypothèses du test des effets principaux de type II, biaisant ces tests pour qu'ils soient trop libéraux. .
Myers & Well citent Appelbaum / Cramer comme les principaux partisans de l'approche de type II, et continuent [p323]: "... Des critères plus conservateurs pour la non-signification de l'interaction pourraient être utilisés, comme exiger que l'interaction ne soit pas significative à niveau 0,25, mais les conséquences de cette approche ne sont pas encore suffisamment comprises. En règle générale, les sommes de sqaures de type II ne doivent pas être calculées à moins qu'il y ait une raison a priori forte de ne supposer aucun effet d'interaction et une interaction clairement non significative. somme des carrés." Ils citent [p629] Globalement, Lee et Hornick 1981 comme une démonstration que les interactions qui ne se rapprochent pas de la signification peuvent biaiser les tests des effets principaux. Maxwell & Delaney [p334] préconisent l'approche de type II si l'interaction de la population est nulle, pour la puissance, et l'approche de type III si ce n'est [pour l'interprétabilité des moyens dérivés de cette approche]. Ils préconisent également d'utiliser le type III dans la situation réelle (lorsque vous faites des inférences sur la présence de l'interaction à partir des données) en raison du problème de faire une erreur de type 2 [sous-alimenté] dans le test d'interaction et donc de violer accidentellement les hypothèses de l'approche SS de type II; ils font ensuite des remarques similaires à Myers & Well, et notent le long débat sur cette question! faire des inférences sur la présence de l'interaction à partir des données) en raison du problème de commettre une erreur de type 2 [sous-alimenté] dans le test d'interaction et donc de violer accidentellement les hypothèses de l'approche SS de type II; ils font ensuite des remarques similaires à Myers & Well, et notent le long débat sur cette question! faire des inférences sur la présence de l'interaction à partir des données) en raison du problème de commettre une erreur de type 2 [sous-alimenté] dans le test d'interaction et donc de violer accidentellement les hypothèses de l'approche SS de type II; ils font ensuite des remarques similaires à Myers & Well, et notent le long débat sur cette question!

Donc, mon interprétation (et je ne suis pas un expert!) Est qu'il y a beaucoup d'autorité statistique supérieure des deux côtés de l'argument; que les arguments habituels avancés ne concernent pas la situation habituelle qui poserait problème (cette situation étant la plus courante d'interprétation des effets principaux avec une interaction non significative); et qu'il y a de bonnes raisons de s'inquiéter de l'approche de type II dans cette situation (et cela revient à un rapport pouvoir / libéralisme potentiel).

Pour moi, c'est suffisant pour souhaiter l'option Type III dans ezANOVA, ainsi que Type II, car (pour mon argent) c'est une superbe interface avec les systèmes ANOVA de R. R est loin d'être facile à utiliser pour les novices, à mon avis, et le package "ez", avec ezANOVA et les fonctions de traçage des effets plutôt charmantes, contribue grandement à rendre R accessible à un public de recherche plus général. Certaines de mes pensées en cours (et un méchant hack pour ezANOVA) sont à http://www.psychol.cam.ac.uk/statistics/R/anova.html .

Serait intéressé d'entendre les pensées de tout le monde!

— Rudolf Cardinal
source

Ah, je n'avais pas réalisé que la distinction de type II / III se pose chaque fois que les prédicteurs sont corrélés, dont une conception déséquilibrée n'est qu'un exemple. Cela sape certainement encore mon premier argument "il suffit de collecter plus de données".

— Mike Lawrence

2

Je suis plutôt convaincu par votre argument selon lequel R gagnera plus de convertisseurs SPSS s'ils disposent de moyens simples pour réaliser des analyses familières, même si ces analyses nécessitent une considération plus nuancée que ce qui est généralement appliqué. Ensuite, une fois que nous les avons accrochés à R, nous pouvons essayer de les convaincre que l'approche familière n'est pas nécessairement toujours l'approche appropriée. Je pense que je vais toujours mettre la valeur par défaut comme type = 2 avec un gros avertissement dans la documentation que cette valeur par défaut peut donner des résultats qui diffèrent de SPSS et les liens font de la documentation sur la distinction de type II / III.

— Mike Lawrence

D'autres variations sur les prédicteurs corrélés sont généralement des prédicteurs continus, mais oui, c'est le problème général. // Cela me semble génial! Parfois, ces changements sont lents; l'utilisation de corrections de sphéricité (plutôt que d'ignorer le problème) en est une qui, je pense, a progressé en neuroscience. Il y avait des moments où toute mention de cela (en particulier si vous aviez signalé le df non entier corrigé) faisait croire aux arbitres que vous aboyiez.

— Rudolf Cardinal

Je voudrais ajouter que les arguments de type III concernent tous des tests d'hypothèse conservateurs ou libéraux, mais pas la signification des composants. Un effet principal dans Type III n'est tout simplement pas sensible car il inclut l'interaction avec les effets principaux manquants. Indépendamment des problèmes de test conservateurs ou libéraux, la cohérence du modèle de base nécessite le type II car un effet principal de type II est logique. Cela dit, ezANOVA devrait avoir le type III pour d'autres raisons.

— John

7

Mise en garde: une réponse purement non statistique. Je préfère travailler avec une fonction (ou au moins un package) lorsque je fais le même type d'analyse (par exemple, ANOVA). Jusqu'à présent, j'utilise systématiquement Anova()car je préfère sa syntaxe pour spécifier des modèles avec des mesures répétées - par rapport à aov(), et je perds peu (SS type I) avec des mesures non répétées. ezANOVA()est agréable pour l'avantage supplémentaire des tailles d'effet. Mais ce que je n'aime pas particulièrement, c'est de devoir traiter avec 3 fonctions différentes pour faire essentiellement le même type d'analyse, juste parce que l'une d'elles implémente la fonction X (mais pas Y), et l'autre Y (mais pas X).

Pour ANOVA, je peux choisir entre oneway(), lm(), aov(), Anova(), ezANOVA(), et probablement d' autres. Lorsque vous enseignez le R, il est déjà difficile d'expliquer les différentes options, comment elles sont liées les unes aux autres ( aov()est un wrapper pour lm()) et quelle fonction fait quoi:

oneway()uniquement pour les modèles à facteur unique mais avec option var.equal=FALSE. Pas une telle option dans aov()et d'autres, mais ces fonctions s'appliquent également aux conceptions multifactorielles.
syntaxe pour les mesures répétées un peu compliquée aov(), meilleureAnova()
SS pratique de type I uniquement aov(), pas dansAnova()
SS de type II et III pratique uniquement dans Anova(), pas dansaov()
mesure de la taille de l'effet pratique dans ezANOVA(), pas dans d'autres

Ce serait bien de n'avoir qu'à enseigner une fonction avec une syntaxe cohérente qui fait tout. Sans SS de type III, ezANOVA()cela ne peut pas être cette fonction parce que je sais que les étudiants seront invités à les utiliser à un moment donné ("il suffit de recouper ces résultats que John Doe a obtenus avec SPSS"). Je pense qu'il vaut mieux avoir la possibilité de faire son choix sans avoir à apprendre une autre syntaxe pour spécifier les modèles. L'attitude «Je sais ce qui vous convient le mieux» peut avoir ses mérites, mais peut être trop protectrice.

— caracal
source

1

Pour ajouter une autre exigence: ce serait totalement génial si la fonction pouvait également exécuter toutes sortes de contrastes à partir de cette ANOVA, par exemple, en utilisant le multcomppackage (qui, pour autant que je m'en souvienne, nécessite des aovobjets). Sinon, je suis totalement d'accord et l'utilise normalement ezpour mon travail quotidien, car c'est si facile ...

— Henrik

1

ajouter un argument "méthode" (avec des valeurs possibles comme "oneway", "aov" et "Anova", et avec un argument "..." pour passer var.eq = FALSE à oneway et taper = 2 à Anova) est une idée intrigante, et il semble certainement qu'il serait assez facile de l'intégrer. Merci pour la suggestion.

— Mike Lawrence

@Henrik: Je dois être honnête, ma compréhension des contrastes est très limitée et je ne les utilise jamais dans mes recherches, donc je n'ai pas priorisé l'intégration des contrastes dans ez.

— Mike Lawrence

@Mike Si vous pouvez ajouter l'argument de la méthode et ainsi votre fonction serait en mesure de renvoyer un aovélément qui serait génial. Jusqu'à présent, je suis généralement trop paresseux pour créer mon propre aovélément et vous utiliser à la ezANOVAplace avec des tests ...

— Henrik

@ Mike, je n'avais pas osé suggérer quelque chose comme ça puisque c'est votre travail que vous y mettez. Merci pour ça! Le ezpaquet a un grand potentiel: en psychologie, il est déjà assez souvent recommandé (cf. livre allemand "R für Einsteiger" de Luhmann). Le rendre encore plus flexible serait certainement apprécié.

— caracal

2

Le monde R n'aime pas trop le Type 3 SS.

L'une des références habituellement citées est les "Exégèses sur les modèles linéaires" de Bill Venables (2000) .

J'espère que je ne le méprise pas, mais je pense que son principal argument est que les SS de type 3 violent le principe de marginalité des modèles linéaires et ne sont donc pas raisonnables.

— Henrik
source

0

Cela a été pour moi un débat révélateur sur la question de type II / III. Merci pour tout l'effort fourni pour la discussion. J'étais venu à l'idée de promouvoir le type II de manière cohérente par rapport au type III, mais j'avais une faible compréhension de l'argument - je me suis juste appuyé sur les conseils du livre de régression (voiture) de John Fox qui recommandait que les tests de type III étaient rarement interprétable (enfin, je pense qu'il l'a dit ...).

Quoi qu'il en soit, ezANOVA est vraiment utile pour permettre l'accès à la fonctionnalité R qui serait autrement impossible pour les étudiants de premier cycle que j'enseigne en psychologie. Je fournis des modules R en ligne, dont un avec ezANOVA pour démontrer des conceptions mixtes d'ANOVA (bien qu'il semble que la version antérieure à 3 ait peut-être été boguée pour cela ... doh!)

Essayez-le ici:

http://www.wessa.net/rwasp_Mixed%20Model%20ANOVA.wasp

après le chargement du module (~ 10 s), trouvez le bouton de calcul (à mi-chemin de la page) et il exécutera ezANOVA et les tableaux et tracés associés.

Ian

Lorsque vous dites qu'ez était bogué pour les conceptions mixtes d'ANOVA, basez-vous cela sur ma récente annonce de la version 3.0 dans laquelle je note qu'il y avait un bogue dans le code ezMixed ()? Si oui, je pense que vous avez mal interprété cette note. ezMixed () n'est pas lié à ezANOVA (). ezMixed () permet d'évaluer l'influence des effets fixes dans un contexte de modélisation à effets mixtes.

— Mike Lawrence

HI Mike - vous avez tout à fait raison - c'était votre note sur ezMixed (). J'ai lu et mal interprété ceci pour ezANOVA ().