Tout est dans la famille; mais incluons-nous aussi les beaux-parents?

Supposons que j'ai une expérience avec deux ou plusieurs facteurs. Une ANOVA globale est construite, puis nous effectuons un suivi avec deux ou plusieurs ensembles de tests post hoc , par exemple des comparaisons multiples. Ma question est de savoir quelle taille --- et combien --- de familles doivent être utilisées comme base pour les ajustements de multiplicité de ces tests post hoc .

Un exemple est l'ensemble de données warp-breaks du livre de Tukey sur EDA. Il y a deux facteurs: wool(à deux niveaux) et tension(à trois niveaux). La table ANOVA est:

Source       Df Sum Sq Mean Sq F value    Pr(>F)    
wool          1  450.7  450.67  3.7653 0.0582130
tension       2 2034.3 1017.13  8.4980 0.0006926
wool:tension  2 1002.8  501.39  4.1891 0.0210442
Residuals    48 5745.1  119.69

De toute évidence, l'interaction est nécessaire dans le modèle. Nous décidons donc de faire des comparaisons des niveaux de chaque facteur, en maintenant l'autre facteur fixe. Les résultats sont ci-dessous, avec quelques annotations auxquelles il sera fait référence plus loin:

*** Pairwise comparisons of tension for each wool ***
*** All combined: Family T ***

wool = A:   *** Family T|A ***
 contrast   estimate       SE df t.ratio
 L - M    20.5555556 5.157299 48   3.986
 L - H    20.0000000 5.157299 48   3.878
 M - H    -0.5555556 5.157299 48  -0.108

wool = B:   *** Family T|B ***
 contrast   estimate       SE df t.ratio
 L - M    -0.5555556 5.157299 48  -0.108
 L - H     9.4444444 5.157299 48   1.831
 M - H    10.0000000 5.157299 48   1.939


*** Comparison of wool for each tension ***
*** All combined: Family W ***

tension = L:   *** Family W|L ***
 contrast  estimate       SE df t.ratio
 A - B    16.333333 5.157299 48   3.167

tension = M:   *** Family W|M ***
 contrast  estimate       SE df t.ratio
 A - B    -4.777778 5.157299 48  -0.926

tension = H:   *** Family W|H ***
 contrast  estimate       SE df t.ratio
 A - B     5.777778 5.157299 48   1.120

Je pense qu'il existe différentes pratiques, et je me demande quelles sont les plus courantes, et quels arguments les gens pourraient faire pour ou contre chaque approche. Dans le calcul des valeurs de ajustées , devrions-nous faire des ajustements de multiplicité pour ... $P$

chacune des cinq plus petites familles (T | A, T | B, ..., W | H) séparément? (Remarque - les 3 dernières familles n'ont qu'un seul test, il n'y aurait donc pas d'ajustement de la multiplicité pour celles-ci)
chacune des grandes familles (T, avec 6 tests et W, avec 3 tests) séparément?
tous les tests considérés comme une grande famille? $6+3=9$

Je m'intéresse à la fois à ce que les gens font habituellement (même s'ils n'y ont pas beaucoup réfléchi) et pourquoi (s'ils l'ont). Deux choses que je pourrais mentionner sont:

$F$
Si nous avions fait une expérience un peu plus petite où tous les tests sont moins puissants, il est possible que l'interaction n'ait pas été significative, conduisant à un nombre beaucoup plus réduit de comparaisons post hoc de moyennes marginales uniquement. De plus, les moyennes marginales pourraient bien avoir des SE plus petites que les moyennes cellulaires dans la plus grande expérience. Si, en outre, l'ajustement de la multiplicité est moins conservateur, nous pourrions avoir des résultats plus «significatifs» avec moins de données que nous n'en aurions avec plus de données.

Intéressé de voir ce que les gens ont à dire ...

multiple-comparisons post-hoc

— Russ Lenth
source

Personne n'a encore répondu, alors je vais m'y atteler.

C'est mon avis (et j'aimerais entendre les pensées des autres) que vous devriez ajuster pour les 9 tests complets dans ce cas. En supposant que nous utilisons la correction du taux d'erreur au niveau de la famille,

Nous tirons simultanément des conclusions des 9 tests à la fois. C'est-à-dire parcourir la liste et voir pour trouver quelque chose d'important.
Pour ce faire, nous envisageons un taux d'erreur global au niveau familial de 5%. L'alternative serait de corriger individuellement les groupes à 5% de FWER. Cela signifierait que lors de l'interprétation, nous ne pourrions pas interpréter les tests ensemble et préférerions regarder les 6 premiers tests et penser qu'il y a 5% de chances de faux positif, puis examiner successivement chacun des tests supplémentaires en sachant qu'il y a 5% de chances de faux positifs pour chaque groupe . IMO l'utilité de la correction de tests multiples est que nous sommes en mesure de tirer simultanément l'inférence de plusieurs tests à la fois. Il semble plus logique que nous examinions les 9 tests et sachions qu'il y a 5% de chances de faux positifs, plutôt que d'avoir à les examiner séparément, ce qui revient à ne pas corriger du tout.
$F$
$F$

Dans l'ensemble, je pense que si vous tirez une inférence simultanée d'un groupe, vous devez considérer chaque test de ce groupe pour correction. Sinon, la compréhension standard du taux d'erreur de groupe contrôlé ne tient pas, et il est assez difficile de suivre conceptuellement ce qui a été ajusté et ce qui ne l'a pas été. Il vaut bien mieux, à mon avis, de tenir tous les tests responsables et de maintenir le taux d'erreur familial à un seuil donné.

Si vous avez des réfutations, j'aimerais les entendre, et je suis sûr que certaines personnes seront en désaccord avec certaines choses ici. Très intéressé d'entendre les pensées des autres.

— Chris C
source

Merci. Bien pensé. Question secondaire: est-il possible de demander à SAS de le faire? Je ne pense pas, mais il y a beaucoup de choses que je ne connais pas sur SAS. C'est pertinent parce que je pense que ce type d'ajustement est rarement utilisé dans la pratique.

— Russ Lenth

Malheureusement, je ne sais pas grand-chose sur SAS, désolé @rvl. Peut-être que quelqu'un d'autre verra cela et aidera. J'espère que vous obtiendrez plus de gens sonner pour ce problème, c'est une très bonne question que les gens n'y pensent pas souvent.

— Chris C

c'est bien - je réfléchissais simplement à ce qu'il est possible de faire facilement avec les logiciels existants. Si le consensus se résume à l'option 3, nous avons besoin d'un support logiciel pour cela!

— Russ Lenth

... mais maintenant, cela peut être fait en R. Voir la nouvelle réponse que j'ai publiée dans la question connexe, stats.stackexchange.com/questions/165125/… . Cette question est ce qui m'a fait réfléchir à ce sujet.

— Russ Lenth

Très cool! Êtes-vous le mainteneur de lsmeans? C'était beaucoup de travail pour cette question!

— Chris C