La correction de Benjamini-Hochberg est-elle plus conservatrice à mesure que le nombre de comparaisons augmente?


19

Dans quelle mesure la correction de tests multiples de Benjamini-Hochberg est-elle conservatrice par rapport au nombre total de comparaisons? Par exemple, si j'ai une liste de 18 000 fonctionnalités pour deux groupes et que j'effectue un test de Wilcoxon pour obtenir une valeur de p. J'ajuste cette valeur de p en utilisant Benjamini-Hochberg et presque rien ne semble aussi significatif.

Je sais que la correction de Bonferroni peut être assez conservatrice à mesure que le nombre de comparaisons augmente, Benjamini-Hochberg a-t-il la même propriété?


1
Voulez-vous vraiment dire conservateur dans le sens où le taux réel de type I est bien inférieur au nominal? Ou voulez-vous dire «faible puissance»?
shabbychef

Il a dit "conservateur", pas "trop ​​conservateur". Si une méthode est conservatrice, elle a une faible puissance ...
Elvis

Réponses:


31

Tout d'abord, vous devez comprendre que ces deux procédures de test multiples ne contrôlent pas la même chose. En utilisant votre exemple, nous avons deux groupes avec 18 000 variables observées, et vous faites 18 000 tests afin d'identifier certaines variables qui sont différentes d'un groupe à l'autre.

  • La correction de Bonferroni contrôle le taux d'erreur Familywise , c'est-à-dire la probabilité, en supposant que toutes les 18 000 variables ont une distribution identique dans les deux groupes, que vous prétendez à tort "ici, j'ai des différences significatives". Habituellement, vous décidez que si cette probabilité est <5%, votre demande est crédible.

  • La correction de Benjamini-Hochberg contrôle le taux de fausses découvertes , c'est-à-dire la proportion attendue de faux positifs parmi les variables pour lesquelles vous prétendez l'existence d'une différence. Par exemple, si avec le FDR contrôlé à 5%, 20 tests sont positifs, "en moyenne" seulement 1 de ces tests sera un faux positif.

Maintenant, quand le nombre de comparaison augmente ... eh bien, cela dépend du nombre d'hypothèses nulles marginales qui sont vraies. Mais fondamentalement, avec les deux procédures, si vous en avez quelques-unes, disons 5 ou 10, des variables vraiment associées, vous avez plus de chances de les détecter parmi 100 variables que parmi 1 000 000 de variables. Cela devrait être assez intuitif. Il n'y a aucun moyen d'éviter cela.


2
C'était une belle explication. Merci pour la réponse réfléchie.
user4673

2
Bonne réponse (+1), peut-être que cela pourrait vous intéresser stats.stackexchange.com/questions/166323/…
En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.