Confusion avec taux de fausses découvertes et tests multiples (sur Colquhoun 2014)


19

J'ai lu ce grand article de David Colquhoun: Une enquête sur le taux de fausses découvertes et la mauvaise interprétation des valeurs de p (2014). En substance, il explique pourquoi le taux de fausses découvertes (FDR) peut atteindre même si nous contrôlons l'erreur de type I avec .30%α=0.05

Cependant, je suis toujours confus quant à ce qui se passe si j'applique le contrôle FDR dans le cas de tests multiples.

Disons que j'ai effectué un test pour chacune des nombreuses variables et calculé les valeurs utilisant la procédure de Benjamini-Hochberg. J'ai obtenu une variable significative avec q = 0,049 . Je demande quel est le FDR pour cette conclusion?qq=0.049

Puis-je supposer avec certitude qu'à long terme, si je fais régulièrement une telle analyse, le FDR n'est pas de , mais inférieur à 5 % , parce que j'ai utilisé Benjamini-Hochberg? Cela semble faux, je dirais que la valeur q correspond à la valeur p dans l'article de Colquhoun et son raisonnement s'applique ici aussi, de sorte qu'en utilisant un seuil q de 0,05, je risque de "me ridiculiser" (comme Colquhoun le dit) dans 30 % des cas. Cependant, j'ai essayé de l'expliquer plus formellement et j'ai échoué.30%5%qpq0.0530%


2
Hé @ janvier, je me demande pourquoi offririez-vous une telle prime (250) et ne reviendriez jamais pour l'attribuer et / ou vérifier les réponses! J'espère que vous allez bien.
amibe dit Réintégrer Monica

3
Deux manuscrits sont tombés sur moi comme une tonne de briques et je l'ai totalement oublié.
Janvier

Réponses:


15

Il se trouve que par coïncidence, j'ai lu ce même article il y a quelques semaines à peine. Colquhoun mentionne plusieurs comparaisons (y compris Benjamini-Hochberg) dans la section 4 lorsqu'il pose le problème, mais je trouve qu'il ne rend pas le problème assez clair - je ne suis donc pas surpris de voir votre confusion.

Le point important à réaliser est que Colquhoun parle de la situation sans aucun ajustement de comparaison multiple. On peut comprendre l'article de Colquhoun comme adoptant la perspective d'un lecteur: il demande essentiellement à quel taux de fausses découvertes (FDR) peut-il s'attendre quand il lit la littérature scientifique, et cela signifie quel est le FDR attendu quand aucun ajustement de comparaison multiple n'a été fait. Des comparaisons multiples peuvent être prises en compte lors de l'exécution de plusieurs tests statistiques dans une étude, par exemple dans un article. Mais personne ne s'ajuste jamais à de multiples comparaisons entre les articles .

Si vous contrôlez réellement le FDR, par exemple en suivant la procédure de Benjamini-Hochberg (BH), alors il sera contrôlé. Le problème est que l'exécution de la procédure BH séparément dans chaque étude ne garantit pas le contrôle global du FDR.

Puis-je supposer avec certitude qu'à long terme, si je fais régulièrement une telle analyse, le FDR n'est pas de , mais inférieur à 5 % , parce que j'ai utilisé Benjamini-Hochberg?30%5%

Non. Si vous utilisez la procédure BH dans chaque article, mais indépendamment dans chacun de vos articles, vous pouvez essentiellement interpréter vos valeurs ajustées BH comme des valeurs p normales , et ce que Colquhoun dit s'applique toujours.pp


Remarques générales

La réponse à la question de Colquhoun sur le FDR attendu est difficile à donner car elle dépend de diverses hypothèses. Si par exemple toutes les hypothèses nulles sont vraies, alors FDR sera100%30%

Je pense que le document est en grande partie raisonnable, mais je n'aime pas qu'il rend certaines affirmations beaucoup trop audacieuses. Par exemple, la première phrase du résumé est:

Si vous utilisez p=0,0530%

Ceci est formulé trop fortement et peut en fait être trompeur.


Certes, je n'ai parcouru le document que assez rapidement, mais il me semble qu'il ne fait que répéter l'idée bien connue qu'il est facile de trouver des effets parasites dans de grands échantillons (par exemple, figure 1). Ce qui ne veut pas dire que ce n'est pas significatif, mais plutôt que je pense qu'il devrait avoir une interprétation différente (et moins audacieuse) que celle proposée par l'auteur.
Ryan Simmons

1
Je ne sais pas pourquoi @RyanSimmons dit que je "répétait essentiellement la prétention bien connue qu'il est facile de trouver des effets parasites dans de grands échantillons". Cela n'avait rien à voir avec de grands échantillons! Je serais ravi de savoir pourquoi il pense que le document devrait avoir "une interprétation différente (et moins audacieuse)".
David Colquhoun

"Mais personne ne s'ajuste jamais à de multiples comparaisons entre les journaux. Ce serait également assez impossible à faire." Je pensais que l'un des avantages des ajustements du taux de fausses découvertes par rapport aux ajustements du taux d'erreur au niveau de la famille était que, alors que ces derniers nécessitent une définition de la famille , les premiers sont évolutifs sur un nombre arbitraire de comparaisons?
Alexis

pαp

Eh bien, ce que vous décrivez n'est certainement pas une procédure de comparaison multiple. Cependant, l'exécution de méthodes d'ajustement basées sur le FDR, disons 5 tests, puis l' ajout de 20 autres à cet ensemble de 10 et la répétition de la même méthode préservent les probabilités de rejet sous FDR, mais ces probabilités de rejet changent sous FWER. L'ajustement Bonferroni de Dunn fournit un exemple assez dramatique.
Alexis

12

Benjamini & Hochberg définissent le taux de fausses découvertes de la même manière que moi, comme la fraction des tests positifs qui sont des faux positifs. Donc, si vous utilisez leur procédure pour des comparaisons multiples, vous contrôlez correctement le FDR. Il convient de noter, cependant, qu'il existe de nombreuses variantes de la méthode BH. Les séminaires de Benjamini à Berkeley sont sur Youtube, et valent bien la peine d'être regardés:

Je ne sais pas pourquoi @amoeba dit "Ceci est formulé trop fortement et peut en fait être trompeur". Je serais intéressé de savoir pourquoi il / elle pense cela. L'argument le plus convaincant provient des tests t simulés (section 6). Cela imite ce que presque tout le monde fait dans la pratique et cela montre que si vous observez P proche de 0,047 et prétendez avoir fait une découverte, vous vous tromperez au moins 26% du temps. Qu'est-ce qui peut mal tourner?

Bien sûr, je ne devrais pas décrire cela au minimum. C'est ce que vous obtenez si vous supposez qu'il y a 50% de chances qu'il y ait un effet réel. Bien sûr, si vous supposez que la plupart de vos hypothèses sont correctes à l'avance, vous pouvez obtenir un FDR inférieur à 26%, mais pouvez-vous imaginer l'hilarité qui saluerait une affirmation selon laquelle vous aviez fait une découverte sur la base de l'hypothèse que vous étiez sûr à 90% à l'avance que votre conclusion serait vraie. 26% est le FDR minimum étant donné que ce n'est pas une base raisonnable pour l'inférence de supposer une probabilité antérieure supérieure à 0,5.

Étant donné que les intuitions ne tiennent souvent pas debout lors des tests, il se pourrait bien qu'il n'y ait que 10% de chances qu'une hypothèse particulière soit vraie, et dans ce cas, le FDR serait de 76% désastreux.

Il est vrai que tout cela dépend de l'hypothèse nulle étant qu'il y a une différence nulle (le soi-disant point nul). D'autres choix peuvent donner des résultats différents. Mais le point nul est ce que presque tout le monde utilise dans la vie réelle (même si le peut ne pas en être conscient). De plus, le point nul me semble être une chose tout à fait appropriée à utiliser. On objecte parfois que les vraies différences ne sont jamais exactement nulles. Je ne suis pas d'accord. Nous voulons savoir si nos résultats ne se distinguent pas du cas où les deux groupes reçoivent des traitements identiques, de sorte que la vraie différence est exactement nulle. Si nous décidons que les données ne sont pas compatibles avec cette vue, nous continuons à estimer la taille de l'effet. et à ce moment-là, nous jugeons séparément si l'effet, bien que réel, est suffisamment important pour être important dans la pratique.Le blog de Deborah Mayo .


@amoeba Merci pour votre réponse.

Ce que la discussion sur le blog de Mayo montre est principalement que Mayo n'est pas d'accord avec moi, même si elle n'a pas clairement expliqué pourquoi, du moins pour moi). Stephen Senn souligne correctement que vous pouvez obtenir une réponse différente si vous postulez une distribution antérieure différente. Cela ne me semble intéressant que pour les bayésiens subjectifs.

Cela n'a certainement rien à voir avec la pratique quotidienne qui suppose toujours un point nul. Et comme je l'ai expliqué, cela me semble être une chose parfaitement sensée à faire.

De nombreux statisticiens professionnels sont parvenus aux mêmes conclusions que moi. Essayez Sellke & Berger et Valen Johnson (références dans mon article). Il n'y a rien de très controversé (ou très original) dans mes affirmations.

Votre autre point, à propos de l'hypothèse d'un 0,5 antérieur, ne me semble pas du tout être une hypothèse. Comme je l'ai expliqué ci-dessus, tout ce qui dépasse 0,5 serait inacceptable dans la pratique. Et tout ce qui est inférieur à 0,5 rend le taux de fausses découvertes encore plus élevé (par exemple, 76% si le précédent est 0,1). Par conséquent, il est parfaitement raisonnable de dire que 26% est le taux minimum de fausses découvertes auquel vous pouvez vous attendre si vous observez P = 0,047 dans une seule expérience.


J'ai réfléchi davantage à cette question. Ma définition du FDR est la même que celle de Benjamini - la fraction des tests positifs qui sont faux. Mais elle s'applique à un problème bien différent, l'interprétation d'un seul test. Avec le recul, il aurait peut-être été préférable de choisir un terme différent.

Dans le cas d'un seul test, B&H laisse la valeur P inchangée, donc il ne dit rien sur le taux de fausses découvertes dans le sens où j'utilise le terme.


es bien sûr, vous avez raison. Benjamini & Hochberg, et d'autres personnes qui travaillent sur des comparaisons multiples, visent uniquement à corriger le taux d'erreur de type 1. Ils se retrouvent donc avec une valeur P «correcte». Il est soumis aux mêmes problèmes que toute autre valeur P. Dans mon dernier article, j'ai changé le nom de FDR en False Positive Risk (FPR) afin d'éviter ce malentendu.

Nous avons également écrit une application Web pour effectuer certains calculs (après avoir remarqué que peu de gens téléchargent les scripts R que nous fournissons). C'est à https://davidcolquhoun.shinyapps.io/3-calcs-final/ Toutes les opinions à ce sujet sont les bienvenues (veuillez d'abord lire l'onglet Notes).

PS La calculatrice Web a maintenant une nouvelle (permanente, j'espère) sur http://fpr-calc.ucl.ac.uk/ Shiny.io est facile à utiliser, mais très cher si quelqu'un utilise réellement l'application :-(


Je suis revenu à cette discussion, maintenant que mon deuxième article sur le sujet est sur le point de paraître dans Royal Society Open Science. C'est à https://www.biorxiv.org/content/early/2017/08/07/144337

Je me rends compte que la plus grande erreur que j'ai commise dans le premier article a été d'utiliser le terme "taux de fausses découvertes (FDR)". Dans le nouvel article, je précise que je ne dis rien sur le problème des comparaisons multiples. Je ne traite que de la question de savoir comment interpréter la valeur P observée dans un seul test non biaisé.

Dans la dernière version, je fais référence à la probabilité que le résultat soit le risque de faux positif (FPR) plutôt que le FDR, dans l'espoir de réduire la confusion. Je préconise également l'approche bayésienne inversée - préciser la probabilité antérieure qui serait nécessaire pour assurer un FPR de, disons, 5%. Si vous observez P = 0,05, cela revient à 0,87. En d'autres termes, vous devriez être presque (87%) sûr qu'il y avait un effet réel avant de faire l'expérience pour atteindre un FPR de 5% (ce que la plupart des gens croient encore, à tort, p = 0,05 signifie).


Cher David, bienvenue à CrossValidated et merci de vous être joint à nous! Il semble que nous soyons d'accord sur la question initiale de @ janvier: le FDR ne peut être contrôlé que par une procédure BH globale; si BH est appliqué séparément dans chaque article, alors vos arguments s'appliquent toujours. Si c'est le cas, cela règle la question initiale. Concernant mon commentaire sur vos formulations "trop ​​fortes": après avoir lu 147 commentaires sur le blog de Mayo, j'hésite à entamer une autre discussion. Comme je l'ai écrit, je suis principalement d'accord avec votre article, et mes objections ne concernaient que certaines formulations. [suite]
amibe dit Réintégrer Monica

1
[...] La première phrase de l'abstrait est "trop ​​forte" exactement pour les raisons que vous avez énumérées ici: par exemple, elle suppose que le point est nul et qu'elle suppose 0,5 auparavant, mais sonne comme si elle ne supposait rien (mais je comprends que vous essayé d'être provocateur). Une énorme discussion sur le blog de Mayo montre que beaucoup de gens ne sont pas d'accord que ces hypothèses sont raisonnables pour une pratique scientifique réelle. J'ai aussi mes propres objections, mais je suis d'accord avec vous que ces hypothèses pourraient décrire avec précision certains domaines scientifiques. Et si c'est le cas, ces champs ont un gros problème, oui.
amibe dit Réintégrer Monica

2

Une grande partie de la confusion est que, malgré ses commentaires contraires ici, Colquhoun ne définit pas le FDR de la même manière que Benjamini-Hochberg. Il est regrettable que Colquhoun ait tenté de forger un terme sans d'abord vérifier si le terme n'avait pas déjà une définition bien établie et différente. Pour aggraver les choses, Colquhoun a défini le FDR précisément de la manière dont le FDR conventionnel a souvent été mal interprété.

Dans sa réponse ici, Colquhoun définit le FDR comme «la fraction des tests positifs qui sont faux». Cela est similaire à ce que Benjamini-Hochberg définit comme le FDP (proportion de fausses découvertes, à ne pas confondre avec le taux de fausses découvertes). Benjamini-Hochberg définit le FDR comme la VALEUR ATTENDUE du FDP, avec une stipulation spéciale que le FDP est considéré comme 0 lorsqu'il n'y a pas de tests positifs (stipulation qui fait que le FDR est égal au FWER lorsque toutes les valeurs nulles sont vraies, et évite les valeurs indéfinissables dues à la division par zéro).

Pour éviter toute confusion, je suggère de ne pas s'inquiéter des détails dans l'article de Colquhoun, et de prendre simplement à cœur le point de vue d'ensemble (que de nombreux autres ont également fait valoir) que le niveau alpha ne correspond pas directement à la proportion de tests importants qui sont des erreurs de type I (qu'il s'agisse des tests significatifs dans une seule étude ou dans plusieurs études combinées). Cette proportion dépend non seulement de l'alpha, mais aussi de la puissance et de la proportion d'hypothèses nulles vérifiées qui sont vraies.

En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.