Quel est le problème avec les ajustements de Bonferroni?


23

J'ai lu l'article suivant: Perneger (1998) Qu'est-ce qui ne va pas avec les ajustements de Bonferroni .

L'auteur a résumé en disant que l'ajustement de Bonferroni a, au mieux, des applications limitées dans la recherche biomédicale et ne devrait pas être utilisé lors de l'évaluation des preuves d'une hypothèse spécifique:

Points récapitulatifs:

  • L'ajustement de la signification statistique du nombre de tests effectués sur les données de l'étude - la méthode Bonferroni - crée plus de problèmes qu'il n'en résout
  • La méthode Bonferroni s'intéresse à l'hypothèse générale nulle (que toutes les hypothèses nulles sont vraies simultanément), qui est rarement intéressante ou utilisée par les chercheurs
  • La principale faiblesse est que l'interprétation d'un résultat dépend du nombre d'autres tests effectués
  • La probabilité d'erreurs de type II est également augmentée, de sorte que les différences vraiment importantes sont considérées comme non significatives
  • Décrire simplement quels tests de signification ont été effectués et pourquoi, est généralement le meilleur moyen de traiter les comparaisons multiples

J'ai l'ensemble de données suivant et je souhaite effectuer plusieurs tests de correction MAIS je ne peux pas décider de la meilleure méthode dans ce cas.

entrez la description de l'image ici

Je veux savoir s'il est impératif de faire ce genre de correction pour tous les ensembles de données qui contiennent des listes de moyennes et quelle est la meilleure méthode de correction dans ce cas?


qu'est-ce que «signifie A», «moyenne B» ...?

3
En ne corrigeant pas les comparaisons multiples, vous courez le risque de résultats irréprochables. De nombreux domaines, dont la médecine et la psychologie, ont récemment découvert que c'est exactement ce qui s'est passé: une grande partie de ce qu'ils "savent" sur la base de valeurs de p non corrigées se révèle tout simplement ne pas l'être. Sans vouloir paraître cynique, il semble que le choix soit clair: le chercheur qui doit répondre à un critère de p-value pour publier ne corrigera pas; le sceptique qui veut la connaissance le fera.
whuber

@whuber mais peut-il toujours être considéré comme reproductible alors qu'il existe de nombreuses méthodes différentes pour corriger les valeurs de p? Dans sa réponse, martino donne même des directives pour choisir entre des méthodes moins conservatrices ou plus puissantes.
Nakx

@Nakx Reproductibility n'est que vaguement associé à la procédure statistique: il fait référence à l'obtention ou non de résultats comparables lorsque la recherche est effectuée de manière indépendante par d'autres (et vraisemblablement dans de telles tentatives de reproduction, une seule hypothèse claire sera articulée à l'avance et une procédure statistique appropriée à cette hypothèse sera utilisée). Si la procédure d'origine ne produit pas une valeur de p correcte, lorsqu'elle est utilisée plusieurs fois pour de nombreuses études indépendantes, elle fera en moyenne plus de déterminations irréproductibles que ce que ses utilisateurs envisagent ou attendent.
whuber

Réponses:


23

Ce qui ne va pas avec la correction de Bonferroni en plus du conservatisme mentionné par d'autres, c'est ce qui ne va pas avec toutes les corrections de multiplicité. Ils ne découlent pas des principes statistiques de base et sont arbitraires; il n'y a pas de solution unique au problème de la multiplicité dans le monde fréquentiste. Deuxièmement, les ajustements de multiplicité sont basés sur la philosophie sous-jacente selon laquelle la véracité d'une affirmation dépend des autres hypothèses retenues. Cela équivaut à une configuration bayésienne où la distribution antérieure d'un paramètre d'intérêt devient de plus en plus conservatrice à mesure que d'autres paramètres sont pris en compte. Cela ne semble pas cohérent. On pourrait dire que cette approche vient du fait que des chercheurs ont été "brûlés" par une histoire d'expériences faussement positives et qu'ils veulent maintenant compenser leurs méfaits.

Pour développer un peu, considérez la situation suivante. Un chercheur en oncologie a fait carrière dans l'étude de l'efficacité des chimiothérapies d'une certaine classe. Les 20 précédents de ses essais randomisés ont abouti à une efficacité statistiquement non significative. Elle teste maintenant une nouvelle chimiothérapie dans la même classe. Le bénéfice de survie est significatif avec P=0.04. Un collègue souligne qu'il y avait un deuxième critère d'effet étudié (rétrécissement de la tumeur) et qu'un ajustement de la multiplicité doit être appliqué au résultat de survie, ce qui rend le bénéfice de survie insignifiant. Comment se fait-il que le collègue ait insisté sur le deuxième critère d'effet, mais ne se soucie pas moins de s'adapter aux 20 tentatives infructueuses précédentes de trouver un médicament efficace? Et comment tiendriez-vous compte des connaissances antérieures sur les 20 études précédentes si vous n'étiez pas bayésien? Et s'il n'y avait pas eu de deuxième critère d'évaluation. Le collègue croirait-il qu'un avantage de survie a été démontré, en ignorant toutes les connaissances antérieures?


2
Pas clair sur la référence à «répétable». S'il y a un seul test, sans ajustement de multiplicité requis, la probabilité qu'un résultat avec soit répété n'est pas élevée. P=0.04
Frank Harrell

2
Pour répondre à @MJA, je pense qu'il y a deux approches préférées: (1) être bayésienne ou (2) hiérarchiser les hypothèses et rapporter les résultats dans leur contexte, par ordre de priorité.
Frank Harrell

3
Il n'y a rien de principe là-dessus, ni exact en aucune façon. L'inégalité de Bonferroni est une limite supérieure pour la probabilité d'erreur uniquement. Pourquoi dépenser également sur 5 paramètres? Pourquoi ne pas créer une région ellipsoïdale au lieu d'une région rectangulaire pour la région d'acceptation? Pourquoi ne pas utiliser la méthode de Scheffe ou Tukey? Pourquoi ne pas utiliser un simple test composite de type ANOVA? Vous n'atteignez pas le α souhaité en utilisant un en égalité. αα
Frank Harrell

2
Vous équivoquez deux taux d'erreur. Sous la valeur nulle, Bonferroni maintient EXACTEMENT le nombre d'erreurs attendu par famille. Il donne un LIEN SUPÉRIEUR sur la probabilité "d'au moins une" erreur par famille (qui dépend de la corrélation). Dépenser alpha également sur les 5 tests est parfaitement logique, sans raison particulière de prioriser les tests d'une manière différente. Dans un autre contexte, il existe des raisons de principe de faire autrement. Vous semblez impliquer qu'il est «sans principes» d'utiliser une méthode mathématiquement valable simplement parce que des méthodes alternatives existent compte tenu d'autres contextes, objectifs et hypothèses.
Bonferroni

2
@FrankHarrell Vos autres questions ne servent qu'à illustrer mon propos. Il existe souvent de nombreux choix de statistiques de test, de procédure de test, etc., même en l'absence de multiplicité. Cela ne rend pas la méthodologie «arbitraire» dans le sens que vous semblez impliquer. Si l'on est intéressé par un test omnibus, alors par tous les moyens, faites-en un. Si l'on ne s'intéresse qu'aux tests univariés, alors, par tous les moyens, faites les tests univariés. Suggérez-vous sérieusement qu'il est "arbitraire" de sélectionner le test qui répond à la question qui vous intéresse plutôt qu'à une autre question?
Bonferroni

12

Il a résumé en disant que l'ajustement de Bonferroni a, au mieux, des applications limitées dans la recherche biomédicale et ne devrait pas être utilisé lors de l'évaluation des preuves d'une hypothèse spécifique.

La correction de Bonferroni est l'une des techniques de comparaisons multiples les plus simples et les plus conservatrices. Il est également l'un des plus anciens et a été considérablement amélioré au fil du temps. Il est juste de dire que les ajustements de Bonferroni ont une application limitée dans presque toutes les situations. Il existe presque certainement une meilleure approche. Autrement dit, vous devrez corriger les comparaisons multiples, mais vous pouvez choisir une méthode moins conservatrice et plus puissante.

Moins conservateur

Les méthodes de comparaisons multiples protègent contre l'obtention d'au moins un faux positif dans une famille de tests. Si vous effectuez un test au niveau , vous autorisez 5% de chances d'obtenir un faux positif. En d'autres termes, vous rejetez par erreur votre hypothèse nulle. Si vous effectuez 10 tests au niveau α = 0,05 , cela augmente à 1 - ( 1 - 0,05 ) 10 = ~ 40% de chances d'obtenir un faux positifαα=0.051(10.05)10

Avec la méthode Bonferroni, vous utilisez un à l'extrémité la plus basse de l'échelle (c'est-à-dire α b = α / n ) pour protéger votre famille de n tests auniveau α . En d'autres termes, c'est le plus conservateur. Maintenant, vous pouvez augmenter α b au-dessus de la limite inférieure fixée par Bonferroni (c.-à-d. Rendre votre test moins conservateur) tout en protégeant votre famille de tests auniveau α . Il y a plusieurs façons de le faire, la méthode Holm-Bonferroni par exemple ou mieux encore False Discovery Rateαbαb=α/nnααbα

Plus puissant

Un bon point soulevé dans l'article référencé est que la probabilité d'erreurs de type II est également augmentée de sorte que les différences vraiment importantes sont considérées comme non significatives.

C'est très important. Un test puissant est celui qui trouve des résultats significatifs s'ils existent. En utilisant la correction Bonferroni, vous vous retrouvez avec un test moins puissant. Comme Bonferroni est conservateur, la puissance devrait être considérablement réduite. Encore une fois, l'une des méthodes alternatives, par exemple le taux de fausses découvertes, augmentera la puissance du test. En d'autres termes, non seulement vous vous protégez contre les faux positifs, mais vous améliorez également votre capacité à trouver des résultats vraiment significatifs.

Alors oui, vous devez appliquer une technique de correction lorsque vous avez plusieurs comparaisons. Et oui, Bonferroni devrait probablement être évité en faveur d'une méthode moins conservatrice et plus puissante


Il existe plusieurs alternatives - Holm Bonferroni par exemple est simple et facile à comprendre. Pourquoi ne pas lui donner un aller. Supposons que votre application concerne l'expression génique ou l'expression protéique où vous testez éventuellement des milliers de variables dans une expérience, puis votre FDR est généralement utilisé.
martino

Votre méthode de calcul de la probabilité de 40% de faux positifs dans dix tests repose sur le fait que vos tests sont des événements indépendants, mais avec des données réelles, il est peu probable que ce soit le cas. Je pense que cela mérite au moins d'être commenté.
Silverfish

Je suis également préoccupé par le fait que cette réponse semble confondre les méthodes de préservation du taux d'erreur familial avec celles du taux de fausses découvertes. Ce n'est pas une mauvaise idée de discuter de ces deux choses, mais comme ils font des tâches différentes, je ne pense pas qu'ils devraient être présentés comme équivalents
Silverfish

Mais si je comprends bien, les FDR (taux de fausses découvertes) ne garantissent pas le contrôle des erreurs de type I à un niveau prédéterminé? (voir aussi ma réponse à cette question)

Mais n'est-il pas plus transparent et utile de rapporter toutes les valeurs p brutes dans un article, afin que les lecteurs puissent juger par eux-mêmes de leur validité ou choisir la myriade de méthodes d'ajustement qu'ils souhaitent utiliser?
Nakx

5

Thomas Perneger n'est pas un statisticien et son article est plein d'erreurs. Je ne prendrais donc pas cela trop au sérieux. Il a en fait été fortement critiqué par d'autres. Par exemple, Aickin a déclaré que l'article de Perneger "se compose presque entièrement d'erreurs": Aickin, "Il existe une autre méthode d'ajustement des tests multiples", BMJ. 1999 9 janvier; 318 (7176): 127.

De plus, aucune des valeurs de p dans la question d'origine n'est de toute façon <0,05, même sans ajustement de la multiplicité. Donc, peu importe le réglage (le cas échéant) utilisé.


4
Merci pour le lien! J'ai ajouté une référence plus complète. C'est encore plus un commentaire qu'une réponse et je suis sûr que vous avez quelque chose d'intéressant à ajouter, ou du moins un bref résumé de ce que dit Aicken. Sans rapport avec cela: dire que Perneger n'a aucune expertise en statistique ne semble pas vrai (selon une norme raisonnable), aimable ou utile - envisageriez-vous de supprimer la déclaration?
Scortchi - Réintégrer Monica

@Scortchi J'ai changé "n'a aucune expertise en statistique" en "n'est pas un statisticien". Soit dit en passant, je ne suis pas d'accord pour dire qu'il n'est pas utile de distinguer les opinions d'experts des opinions non expertes.
Bonferroni

2
Pour autant que je sache, Perneger n'a aucun diplôme en statistique et n'a jamais publié d'article dans une revue statistique. Le document cité dans la question est un article d'opinion du BMJ qui a été dénoncé pour être complètement faux. Alors, quelle est l'expertise supposée de Perneger qui est incontestable "au-delà de toute norme raisonnable?" Être «aimable» ne devrait pas entraver la vérité.
Bonferroni

3
Autant que je sache, il est professeur dans un hôpital universitaire avec une maîtrise en biostatistique et un doctorat en épidémiologie qui enseigne en statistiques médicales et publie des analyses d'essais cliniques et d'études observationnelles dans des revues médicales. Si vous déduisez de cette "absence d'expertise statistique", je pense que votre norme est plutôt supérieure à ce que vous pourriez raisonnablement attendre de vos lecteurs. (C'est ce que j'aurais dû dire plutôt que le standard était déraisonnable.) Quoi qu'il en soit, merci de l'avoir édité!
Scortchi - Réintégrer Monica

5

Peut-être qu'il est bon d'expliquer le `` raisonnement derrière '' de multiples corrections de tests comme celle de Bonferroni. Si cela est clair, vous pourrez vous-même juger si vous devez les appliquer ou non.

μH0:μ=0

H1:μ0H0:μ=0α

H0H0 te soit vrai, nous pouvons calculer la probabilité de ce résultat (quelque chose de plus précis qui est au moins aussi extrême que ce résultat).

H0H0H1 mais il s'agit de fausses preuves dans les cas où nous n'avons pas de chance avec l'échantillon.

Les fausses preuves sont une mauvaise chose en science parce que nous pensons avoir acquis une véritable connaissance du monde, mais en fait, nous avons peut-être eu de la malchance avec l'échantillon. Ce type d'erreurs doit donc être contrôlé. Par conséquent, il convient de limiter la probabilité de ce type de preuve ou de contrôler l'erreur de type I. Cela se fait en fixant à l'avance un niveau de signification acceptable.

5%H05%H0H1H1

H0:μ1=0&μ2=0H1:μ10|μ20α=0.05

H0(1):μ1=0H0(1):μ10H1(2):μ2=0H1(2):μ20α=0.05

H0(1)H0(1)

1(10.05)2=0.0975α

Le fait important ici est que les deux tests sont basés sur un seul et l'échantillon sampe!

Notez que nous avons acquis l'indépendance. Si vous ne pouvez pas assumer l'indépendance, vous pouvez montrer, en utilisant l'inégalité de Bonferroni $, que l'erreur de type I peut gonfler jusqu'à 0,1.

Notez que Bonferroni est conservateur et que la procédure pas à pas de Holm tient sous les mêmes hypothèses que pour Bonferroni, mais la procédure de Holm a plus de pouvoir.

Lorsque les variables sont discrètes, il est préférable d'utiliser des statistiques de test basées sur la valeur p minimale et si vous êtes prêt à abandonner le contrôle des erreurs de type I lorsque vous effectuez un grand nombre de tests, les procédures False Discovery Rate peuvent être plus puissantes.

MODIFIER :

Si par exemple (voir l'exemple dans la réponse de @Frank Harrell)

H0(1):μ1=0H1(1):μ10

H0(2):μ1=0H1(2):μ20

H0(12):μ1=0&μ2=0H1(12):μ10|μ20 (i.e. the test that at least one of them has an effect) can be carried out by testing (on the same sample)

H0(1) versus H1(1) at the 2.5% level and also H0(2) versus H1(2) at the 2.5% level.


2
I think this question benefits from an answer like this but I suggest tightening the wording of "So if we fix our significance level at 5% then we are saying that we are ready to accept to find false evidence (because of bad luck with the sample) with a chance of 5%"... That is only the probability of error if the null is actually true, and that's worth saying. (Is "false evidence" a common term? I'm more used to seeing "false positive".)
Silverfish

@Silverfish; I re-phresed it a bit, do you think it is better like this ?

1
I think that's better - "statistically proven" would probably benefit from rephrasing too, I know this is how many people interpret p<0.05 or whatever but of course it isn't really a proof!
Silverfish

@Silverfish: I fully agree that is not a ''proof'' but I used the term for didactial reasons, because I started by the analogy to proof by contradiction. I will add such a clarification at the begining

Your Edit is confusing. "The effect of chemotherapy" in Frank's example is measured via two measures: survival rate and tumor shrinkage. Both can be influenced by chemo. The hypothesis is obviously that chemo works. But "works" can be quantified in two different ways. That's the vagueness aspect I've been talking about in your new thread.
amoeba says Reinstate Monica

4

A nice discussion of Bonferroni correction and effect size http://beheco.oxfordjournals.org/content/15/6/1044.full.pdf+html Also, Dunn-Sidak correction and Fisher's combined probabilities approach are worth considering as alternatives. Regardless of the approach, it is worth reporting both adjusted and raw p-values plus effect size, so that the reader can have the freedom of interpreting them.


The advice to present both raw and adjusted p-values has always seemed sensible to me but is it generally considered the norm, or even acceptable?
Silverfish

3

For one, it's extremely conservative. The Holm-Bonferroni method accomplishes what the Bonferonni method accomplishes (controlling the Family Wise Error Rate) while also being uniformly more powerful.


Is that mean that I need to use this method to correct my results or I should accept the results depending on my hypothesis.
goro

I dont know what you mean by "I should accept the results depending on my hypothesis" but yes you should apply some sort of multiple testing correction because otherwise you are highly inflating type 1 error.
TrynnaDoStat

What I meant by "I should accept the results depending on my hypothesis" is that I ran my analysis in three different ways including GLM and permutation methods. all the methods gave me significant results and those results support my hypothesis that I should have significant difference between the groups. When I used Bonferroni for multiple correction All my results was not significant. Thats why I am confused.Is this method not optimal for my analysis so I can use different one or can I trust my results depending on the results from the other methods without to use Bonferroni?
goro

1
Okay, I understand what you are saying. If you tested the same hypothesis 3 different ways I would not apply a multiple testing correction. The reason being that these three test results are presumably highly dependent on each other.
TrynnaDoStat

3

One should look at the "False Discovery Rate" methods as a less conservative alternative to Bonferroni. See

John D. Storey, "THE POSITIVE FALSE DISCOVERY RATE: A BAYESIAN INTERPRETATION AND THE q-VALUE," The Annals of Statistics 2003, Vol. 31, No. 6, 2013–2035.


3
These control different things though. FDR ensures that up no more 5% (or whatever your alpha is) of your calls are false positives, which is different from preserving the familywise error rate (which is what Bonferroni does).
Matt Krause

@Matt Krause: And if I understand well, the FDR (false discovery rates) do not guarantee type I error control at a predetermined level ? (see also my answer to this question)
En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.