Pourquoi la comparaison multiple est-elle un problème?

44

J'ai du mal à comprendre quel est vraiment le problème des comparaisons multiples . Avec une simple analogie, on dit qu'une personne qui prendra de nombreuses décisions commettra de nombreuses erreurs. On applique donc une précaution très prudente, comme la correction de Bonferroni, de manière à rendre probable que cette personne commette une erreur, aussi basse que possible.

Mais pourquoi nous soucions-nous de savoir si la personne a commis une erreur parmi toutes ses décisions, plutôt que le pourcentage de mauvaises décisions?

Permettez-moi d'essayer d'expliquer ce qui me confond avec une autre analogie. Supposons qu'il y ait deux juges, l'un a 60 ans et l'autre 20 ans. Ensuite, la correction de Bonferroni demande à celui qui a 20 ans d’être le plus conservateur possible dans sa décision d’exécution, car il travaillera encore pendant de nombreuses années en tant que juge et prendra beaucoup plus de décisions; il doit donc faire preuve de prudence. Mais celui qui a 60 ans va probablement prendre sa retraite bientôt, prendra moins de décisions, alors il peut être plus insouciant que l’autre. Mais en réalité, les deux juges devraient être tout aussi prudents que conservateurs, quel que soit le nombre total de décisions qu'ils vont prendre. Je pense que cette analogie se traduit plus ou moins par les véritables problèmes d'application de la correction de Bonferroni, ce que je trouve contre-intuitif.

hypothesis-testing multiple-comparisons

— AgCl
source

8

Ce n'est pas vraiment une réponse à votre question, mais avez-vous rencontré des taux de faux découvertes (FDA)? "Au-delà de Bonferroni" de Narum: springerlink.com/content/c5047h0084528056

— apeescape

40

Vous avez dit quelque chose qui est un contre-argument classique aux corrections de Bonferroni. Ne devrais-je pas ajuster mon critère alpha en fonction de chaque test que je ferai un jour? Ce type d'implication ad absurdum est la raison pour laquelle certaines personnes ne croient pas du tout aux corrections de Bonferroni. Parfois, le type de données dont on traite dans leur carrière est tel que ce n’est pas un problème. Pour les juges qui prennent une ou très peu de décisions sur chaque nouvel élément de preuve, cet argument est très valable. Mais qu'en est-il du juge qui compte 20 accusés et qui fonde son jugement sur un seul grand ensemble de données (par exemple, les tribunaux de guerre)?

Vous ignorez les coups de pied à la partie can de l'argument. Généralement, les scientifiques recherchent quelque chose - une valeur p inférieure à alpha. Toute tentative pour en trouver un est un autre coup dur. On finira par en trouver un si on prend assez de coups. Par conséquent, ils devraient être pénalisés pour avoir fait cela.

Si vous harmonisez ces deux arguments, vous réaliserez qu’ils sont vrais. La solution la plus simple est d’envisager de tester les différences au sein d’un même ensemble de données pour résoudre le problème, mais que l’élargissement de la portée de la correction à l’extérieur serait une pente glissante.

Il s’agit d’un problème véritablement difficile dans un certain nombre de domaines, notamment l’IRMF, où des milliers de points de données sont comparés et où certains risquent d’être considérés comme importants par hasard. Étant donné que le champ a été historiquement très exploratoire, il faut faire quelque chose pour corriger le fait que des centaines de zones du cerveau auront l’air significatif d’être purement fortuites. Par conséquent, de nombreuses méthodes d'ajustement de critère ont été développées dans ce domaine.

D'autre part, dans certains domaines, on peut tout au plus regarder 3 à 5 niveaux d'une variable et toujours juste tester chaque combinaison si une ANOVA significative se produit. Ceci est connu pour avoir quelques problèmes (erreurs de type 1) mais ce n'est pas particulièrement grave.

Cela dépend de votre point de vue. Le chercheur FMRI reconnaît le besoin réel d'un changement de critère. La personne qui regarde une petite ANOVA peut avoir l’impression que le test a clairement un effet. Le point de vue conservateur approprié sur les comparaisons multiples est de toujours faire quelque chose à leur sujet, mais uniquement en se basant sur un seul jeu de données. Toute nouvelle donnée réinitialise le critère ... sauf si vous êtes bayésien ...

— John
source

Merci, cela a été très utile. Je vais voter quand j'ai assez de représentant.

— AgCl

Le chercheur FMRI utiliserait probablement également le critère du taux de fausse découverte (FDR), car il garantit un alpha * 100% de faux positifs sur une longue période de tests.

— Brandon Sherman

@ John, pouvez-vous s'il vous plaît répondre à cette question stats.stackexchange.com/questions/431011/… Je serais heureux, si vous pouvez m'aider s'il vous plaît.

— Sabbir Ahmed

26

Des statisticiens réputés ont adopté une grande variété de positions sur de nombreuses comparaisons. C'est un sujet subtil. Si quelqu'un pense que c'est simple, je me demande à quel point ils y ont pensé.

Andrew Gelman présente une perspective bayésienne intéressante sur les tests multiples: Pourquoi ne nous inquiétons-nous pas (habituellement) des comparaisons multiples ?

— John D. Cook
source

2

Ce que je trouve intéressant dans cet article est que la perspective est bayésienne, mais l'approche de modélisation hiérarchique proposé de remplacer les corrections pour les comparaisons multiples ne pas vous obliger à être bayésienne.

— conjugateprior

1

Je regardais juste cet article; Je pense qu’il faudrait peut-être le citer davantage. Je n'aime pas les effets de rinçage, car les techniques de comparaison multiple avancées ne sont ni bien connues ni faciles à faire. En revanche, une approche plus simple est extrêmement simple. Je me demande s’il ya de graves problèmes à prendre en compte.

— russellpierce

2

Mais voir l'article de Gelman en 2014 Dans l'une des horribles ironies de la vie, j'ai écrit un article intitulé «Pourquoi nous n'avons généralement pas à nous soucier des comparaisons multiples», mais maintenant je passe beaucoup de temps à m'inquiéter des comparaisons multiples .

— Amibe dit: Réintégrer Monica

13

En relation avec le commentaire précédent, le chercheur en IRMf devrait se rappeler que ce qui compte, ce sont les résultats d'importance clinique et non le décalage de densité d'un pixel sur une IRMf du cerveau. Si cela n'entraîne pas d'amélioration / de préjudice clinique, cela n'a pas d'importance. C’est un moyen de réduire les préoccupations au sujet des comparaisons multiples.

Voir également:

Bauer, P. (1991). Tests multiples dans des essais cliniques. Stat Med, 10 (6), 871 à 89; discussion 889-90.
Proschan, MA et Waclawiw, MA (2000). Directives pratiques pour l'ajustement de la multiplicité dans les essais cliniques. Control Clin Trials, 21 (6), 527-39.
Rothman, KJ (1990). Aucun ajustement n'est nécessaire pour les comparaisons multiples. Epidemiology (Cambridge, Mass.), 1 (1), 43-6.
Perneger, TV (1998). Quel est le problème avec les ajustements bonferroni. BMJ (Clinical Research Ed.), 316 (7139), 1236-8.

— pmgjones
source

Cela vaut également la peine d'être cité: prefrontal.org/files/posters/Bennett-Salmon-2009.jpg

— nico

Je suis sûr qu'ils se sont bien amusés à demander à un saumon mort de ses émotions !!!

— nico

Cet article contient également des références utiles relatives aux RCT: j.mp/bAgr1B .

— chl

10

$n$ $(X_i)_{i=1,\dots,n}$ $i=1,\dots,n$ $X_i$ $\mathcal{N}(\theta_i,1)$

$H_{0i} : \theta_i=0$ $H_{1i} : \theta_i\neq 0$

$n$ $i$ $\tau_i$ $H_{0i}$ $|X_i|>\tau_i$

$\tau_i$

choisir le même seuil pour tout le monde
choisir un seuil différent pour tout le monde (le plus souvent un seuil basé sur les données, voir ci-dessous).

Différents objectifs: Ces options peuvent être orientées vers différents objectifs tels que

$H_{0i}$ $i$
Contrôle de l'attente du taux de fausses alertes (ou taux de détection fausse)

Quel que soit votre objectif final, il est judicieux d’utiliser un seuil de données.

Ma réponse à votre question: votre intuition est liée à l'heuristique principale pour choisir un seuil de données. C'est la suivante (à l'origine de la procédure de Holm qui est plus puissante que Bonferoni):

$p$ $|X_{i}|$ $H_{0i}$ $n-p$ $H_{0i}$

Dans le cas de vos juges: je suppose (et je suppose que vous devriez faire la même chose) que les deux juges ont les mêmes budgets de fausses accusations pour leur vie. Le juge âgé de 60 ans est peut-être moins conservateur si, par le passé, il n'a accusé personne! Mais s'il a déjà beaucoup accusé, il sera plus conservateur et peut-être même plus que le juge le plus terrible.

— robin girard
source

Je pense que vous avez une faute de frappe dans vos hypothèses - elles semblent toutes les deux être identiques ...

— walkytalky

2

Un article illustrant (et amusant); http://www.jsur.org/ar/jsur_ben102010.pdf ) sur la nécessité de corriger plusieurs tests dans une étude pratique faisant évoluer de nombreuses variables, par exemple, fmri. Cette courte citation dit l'essentiel du message:

"[...] nous avons terminé une session d'analyse IRMf avec un saumon de l'Atlantique post mortem comme sujet. On a montré au saumon la même tâche de prise de perspective sociale que celle qui a ensuite été administrée à un groupe de sujets humains."

C'est, selon mon expérience, un argument formidable pour encourager les utilisateurs à utiliser plusieurs corrections de test.

— peuhp
source