Des corrections de comparaisons multiples sont-elles nécessaires pour les «comparaisons multiples» informelles / visuelles?


9

J'ai une sorte de question philosophique sur le moment où une correction de comparaison multiple est nécessaire.

Je mesure un signal variant dans le temps continu (à des moments discrets). Des événements distincts ont lieu de temps en temps et je voudrais établir si ces événements ont un effet significatif sur le signal mesuré.

Je peux donc prendre le signal moyen qui suit un événement, et généralement je peux y voir un effet avec un certain pic. Si je choisis l'heure de ce pic et dis un test t pour déterminer s'il est significatif par rapport à quand l'événement ne se produit pas, dois-je faire une correction de comparaison multiple?

Bien que je n'ai jamais effectué qu'un seul test t (valeur calculée 1), lors de mon inspection visuelle initiale, j'ai sélectionné celui avec le plus grand effet potentiel parmi les (disons) 15 points de temps de retard de retard différents que j'ai tracés. Dois-je donc faire une correction de comparaison multiple pour ces 15 tests que je n'ai jamais effectués?

Si je n'utilisais pas d'inspection visuelle, mais faisais juste le test à chaque décalage d'événement et choisissais le plus élevé, je devrais sûrement le corriger. Je suis juste un peu confus quant à savoir si j'en ai besoin ou non si la sélection du «meilleur délai» est faite par un autre critère que le test lui-même (par exemple, sélection visuelle, moyenne la plus élevée, etc.)

Réponses:


11

Techniquement, lorsque vous effectuez une présélection visuelle de l'endroit où effectuer le test, vous devez déjà corriger cela: vos yeux et votre cerveau contournent déjà certaines incertitudes dans les données, que vous ne tenez pas compte si vous faites simplement le test à ce stade .

Imaginez que votre «pic» est vraiment un plateau, et vous choisissez à la main la différence «pic», puis exécutez un test sur cela et cela s'avère à peine significatif. Si vous deviez exécuter le test un peu plus à gauche ou à droite, le résultat pourrait changer. De cette façon, vous devez tenir compte du processus de présélection: vous n'avez pas tout à fait la certitude que vous déclarez! Vous utilisez les données pour effectuer la sélection, vous utilisez donc deux fois les mêmes informations.

Bien sûr, dans la pratique, il est très difficile de rendre compte de quelque chose comme un processus de cueillette à la main, mais cela ne signifie pas que vous ne devriez pas (ou au moins prendre / énoncer les intervalles de confiance résultants / les résultats des tests avec un grain de sel).

Conclusion : vous devez toujours corriger les comparaisons multiples si vous effectuez des comparaisons multiples, quelle que soit la façon dont vous avez sélectionné ces comparaisons. S'ils n'ont pas été sélectionnés avant de voir les données, vous devez également corriger cela.

Remarque: une alternative à la correction de la présélection manuelle (par exemple, lorsque cela est pratiquement impossible) est probablement d'indiquer vos résultats afin qu'ils contiennent évidemment une référence à la sélection manuelle. Mais ce n'est pas une «recherche reproductible», je suppose.


1
Toujours faire des corrections, gonfle votre taux d'erreur de type II. Si vous avez tous les résultats significatifs avant correction, vous risquez de les perdre tous après correction, sans tenir compte des faibles chances d'obtenir tous les résultats significatifs. Cela peut dépendre du coût d'une erreur de type I ou de type II dans votre contexte.
Etienne Low-Décarie

Nick a donné la réponse que j'aurais voulu donner si j'étais le premier à répondre. Cependant, dans la configuration initiale, vous (mkpitas) avez dit que si vous effectuez réellement les 15 tests, vous n'auriez pas à faire la correction de multiplicité. Je ne vois pas pourquoi tu dirais ça. Je pense que dans ce cas, la nécessité d'une correction de la multiplicité devient tout simplement plus évidente. @etienne votre point s'applique à la correction FWER qui est très stricte dans le contrôle des erreurs de type I. Si vous utilisez le FDR, vous ne sacrifierez pas autant de puissance.
Michael R. Chernick

8

Il y a longtemps, dans l'un de mes premiers cours de statistiques, je lisais à ce sujet dans un texte (je pense que c'était une ancienne édition du livre de Cohen sur la régression) où il était dit "c'est une question sur laquelle les gens raisonnables peuvent différer".

Il n'est pas clair pour moi que quiconque ait jamais besoin de corriger des comparaisons multiples, ni, s'il le fait, sur quelle période ou ensemble de comparaisons il devrait corriger. Chaque article? Chaque régression ou ANOVA? Tout ce qu'ils publient sur un sujet? Qu'en est-il de ce que D'AUTRES personnes publient?

Comme vous l'écrivez dans votre première ligne, c'est philosophique.


4
Vous avez raison de se demander combien de comparaisons sont effectuées, mais je ne pense pas que cela implique votre conclusion. Les personnes raisonnables peuvent différer parce qu'elles ont des objectifs différents et des évaluations différentes (fonctions de perte) pour les résultats possibles. Si vous devez corriger plusieurs comparaisons, c'est parce que cela conduit à une meilleure perte attendue. En tant que tel, il s'agit d'un problème extrêmement pratique, et non d'une simple «philosophie», et il existe des moyens rationnels de le résoudre sur lesquels des personnes raisonnables peuvent s'entendre.
whuber

2
@whuber vous avez sûrement raison dans certaines situations. Parfois, il existe une fonction de perte sensible, bien qu'il soit souvent difficile d'en faire une explicite. Mais d'autres fois, par exemple dans un travail d'exploration, j'ai du mal à voir comment toute fonction de perte est possible. Bien sûr, toute l'idée de la fonction de perte nous éloigne de la stature du Graal de p = 0,05, et de l'hypothèse typique que la puissance = 0,8 ou 0,9 est assez bonne, et sur (à mon avis) une idée plus sensée que nous les établissons pour des motifs plus substantiels.
Peter Flom

1
Merci d'avoir clarifié la portée et l'esprit de votre réponse, Peter.
whuber

4
Je suis furieux quand les gens disent que les tests de multiplicité n'ont pas d'importance. Je vois cette attitude trop souvent exprimée dans la recherche médicale. Vous pouvez citer de nombreux articles qui ont abouti à des conclusions incorrectes car la multiplicité a été ignorée. Il est essentiel de ne pas publier des articles avec des conclusions erronées en médecine, car cela affecte la façon dont les patients sont traités et la vie est en jeu. La multiplicité contribue au biais de publication (car lorsqu'un problème est étudié plusieurs fois, seules les études avec des résultats significatifs sont publiées), ce qui est un problème grave dans la méta-analyse,
Michael R. Chernick

1
@MichaelChernick, je suis d'accord - c'est très problématique lorsque les gens ignorent plusieurs corrections de test. Cependant, je pense que Peter soulève un bon point - quelle devrait être la portée des tests multiples? Tous les tests effectués dans un seul document? Tous les tests effectués avec un seul ensemble de données? Tous les tests effectués depuis la nuit des temps? Il ne semble pas y avoir de réponse clairement correcte.
Macro

4

Si vous essayez de prendre des décisions ponctuelles sur la réalité et que vous souhaitez contrôler le taux auquel vous rejetez faussement l'hypothèse nulle, alors vous utiliserez le test de signification d'hypothèse nulle (NHST) et voudrez utiliser la correction pour des comparaisons multiples. Cependant, comme Peter Flom le note dans sa réponse, il n'est pas clair comment définir l'ensemble de comparaisons sur lesquelles appliquer la correction. Le choix le plus simple est l'ensemble de comparaisons appliquées à un ensemble de données donné, et c'est l'approche la plus courante.

Cependant, la science est sans doute mieux conçue comme un système cumulatif où des décisions ponctuelles ne sont pas nécessaires et ne servent en fait qu'à réduire l'efficacité de l'accumulation de preuves (réduire les preuves obtenues à un seul élément d'information). Ainsi, si l'on suit une approche correctement scientifique de l'analyse statistique, en évitant NHST pour des outils comme les rapports de vraisemblance (peut-être aussi les approches bayésiennes), alors le "problème" des comparaisons multiples disparaît.


1

Une alternative possible à la correction, selon votre question, est de tester la signification de la somme des valeurs de p. Vous pouvez alors même vous pénaliser pour les tests qui ne sont pas effectués en ajoutant des valeurs de p élevées.

Des extensions (qui ne nécessitent pas d'indépendance) de la méthode de Fisher (qui nécessitent une indépendance de test) pourraient être utilisées.

Par exemple. La méthode de Kost


Ce sont des exemples de procédures utilisées dans la méta-analyse lorsque les études individuelles ne fournissent que des valeurs de p ou que les données ne peuvent pas être combinées mais que chaque étude a une valeur de p calculée. La méthode de combinaison de Fisher et la normale inverse sont également des moyens de construire des règles d'arrêt dans les plans adaptatifs.
Michael R. Chernick

1

Une chose très importante à retenir est que la correction de tests multiples suppose des tests indépendants. Si les données que vous analysez ne sont pas indépendantes, les choses deviennent un peu plus compliquées que la simple correction du nombre de tests effectués, vous devez tenir compte de la corrélation entre les données analysées ou votre correction sera probablement beaucoup trop conservatrice et vous le ferez ont un taux d'erreur élevé de type II. J'ai trouvé que la validation croisée, les tests de permutation ou le bootstrap peuvent être des moyens efficaces pour gérer plusieurs comparaisons s'ils sont utilisés correctement. D'autres ont mentionné l'utilisation du FDR, mais cela peut donner des résultats incorrects s'il y a beaucoup de non-indépendance dans vos données car il suppose que les valeurs de p sont uniformes dans tous les tests sous le null.


2
Bienvenue sur le site, Matt. Concernant votre phrase d'ouverture: Une chose très importante à retenir est que la correction de tests multiples suppose des tests indépendants. Notez que cela est vrai pour certaines procédures de correction à tests multiples, mais certainement pas pour toutes. Par exemple, la plus simple de toutes (Bonferroni) ne fait aucune hypothèse d'indépendance, et est en effet assez inefficace si les tests sont réellement indépendants! :-) De plus, dans un cadre de distribution continue, la distribution (marginale) d'une seule valeur sera uniforme sous le zéro; vous pourriez envisager de modifier pour clarifier vos remarques. p
cardinal
En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.