Ce serait évidemment un cauchemar absolu à faire dans la pratique, mais supposons que cela puisse être fait: nous nommons un sultan statistique et tous ceux qui effectuent un test d'hypothèse rapportent leurs valeurs brutes à ce despote. Il effectue une sorte de correction globale (littéralement) des comparaisons multiples et répond avec les versions corrigées.p
Cela ouvrirait-il un âge d'or de la science et de la raison? Non, probablement pas.
Commençons par considérer une paire d'hypothèses, comme dans un test. Nous mesurons une propriété de deux groupes et voulons distinguer deux hypothèses sur cette propriété:
Dans un échantillon fini, il est peu probable que les moyennes soient exactement égales même si est vraiment vrai: l'erreur de mesure et d'autres sources de variabilité peuvent repousser les valeurs individuelles. Cependant, le
H 0 : Les groupes ont la même moyenne. H A : Les groupes ont des moyens différents. H 0 H 0tH0:HUNE: Les groupes ont la même moyenne. Les groupes ont des moyens différents.
H0H0l'hypothèse est en quelque sorte «ennuyeuse», et les chercheurs sont généralement soucieux d'éviter une situation «faux positif» dans laquelle ils prétendent avoir trouvé une différence entre les groupes où il n'en existe pas vraiment. Par conséquent, nous n'appelons les résultats "significatifs" que s'ils semblent improbables sous l'hypothèse nulle et, par convention, que le seuil de non-ressemblance est fixé à 5%.
Cela s'applique à un seul test. Supposons maintenant que vous décidiez d'exécuter plusieurs tests et que vous êtes prêt à accepter 5% de chances d'accepter par erreur pour chacun. Avec suffisamment de tests, vous allez donc certainement commencer à faire des erreurs, et beaucoup d'entre elles.H0
Les différentes approches de corrections multiples sont destinées à vous aider à revenir à un taux d'erreur nominal que vous avez déjà choisi de tolérer pour les tests individuels. Ils le font de manières légèrement différentes. Les méthodes qui contrôlent le taux d'erreur familial , comme les procédures Bonferroni , Sidak et Holm , disent "Vous vouliez 5% de chances de faire une erreur sur un seul test, nous allons donc nous assurer qu'il n'y a pas plus de 5 % de chances de faire des erreurs dans tous vos tests. " Méthodes qui contrôlent le taux de fausses découvertesdites plutôt "Vous êtes apparemment d'accord pour vous tromper jusqu'à 5% du temps avec un seul test, nous nous assurerons donc que pas plus de 5% de vos" appels "sont erronés lorsque vous effectuez plusieurs tests". (Regarde la différence?)
Supposons maintenant que vous tentiez de contrôler le taux d'erreur au niveau de la famille de
tous les tests d'hypothèse jamais exécutés. Vous dites essentiellement que vous voulez une <5% de chances de rejeter faussement toute hypothèse nulle, jamais. Cela établit un seuil incroyablement strict et l'inférence serait effectivement inutile, mais il y a un problème encore plus urgent: votre correction globale signifie que vous testez des "hypothèses composées" absolument absurdes comme
H1:Le médicament XYZ modifie le nombre de lymphocytes T ∧Les raisins poussent mieux dans certains domaines ∧… ∧ … ∧ … ∧ … ∧Les hommes et les femmes mangent différentes quantités de crème glacée
Avec les corrections de faux taux de découverte, le problème numérique n'est pas aussi grave, mais c'est toujours un gâchis philosophiquement. Au lieu de cela, il est logique de définir une "famille" de tests connexes, comme une liste de gènes candidats lors d'une étude génomique, ou un ensemble de casiers temps-fréquence lors d'une analyse spectrale. Adapter votre famille à une question spécifique vous permet d'interpréter votre erreur de type I de manière directe. Par exemple, vous pouvez regarder un ensemble de valeurs de p corrigé par FWER à partir de vos propres données génomiques et dire «il y a <5% de chance que l'un de ces gènes soit un faux positif». C'est bien mieux qu'une garantie nébuleuse qui couvre les inférences faites par des personnes qui ne vous intéressent pas sur des sujets qui ne vous intéressent pas.
Le revers de la médaille est que le choix approprié de "famille" est discutable et un peu subjectif (tous les gènes sont-ils une seule famille ou puis-je simplement considérer les kinases?) Mais cela devrait être informé par votre problème et je ne crois pas que quiconque a sérieusement préconisé de définir les familles presque aussi largement.
Et Bayes?
L'analyse bayésienne offre une alternative cohérente à ce problème - si vous êtes prêt à vous éloigner un peu du cadre d'erreur Frequentist Type I / Type II. Nous commençons par un certain non-engagement avant ... enfin ... tout. Chaque fois que nous apprenons quelque chose, cette information est combinée avec le précédent pour générer une distribution postérieure, qui devient à son tour le prieur pour la prochaine fois que nous apprenons quelque chose. Cela vous donne une règle de mise à jour cohérente et vous pouvez comparer différentes hypothèses sur des choses spécifiques en calculant le facteur Bayes entre deux hypothèses. Vous pourriez vraisemblablement prendre en compte de gros morceaux du modèle, ce qui ne rendrait même pas cela particulièrement onéreux.
Il y a un mème persistant ... que les méthodes bayésiennes ne nécessitent pas de multiples corrections de comparaisons. Malheureusement, les probabilités postérieures ne sont qu'une autre statistique de test pour les fréquentistes (c'est-à-dire les personnes qui se soucient des erreurs de type I / II). Ils n'ont pas de propriétés spéciales qui contrôlent ces types d'erreurs (pourquoi le feraient-ils?) Ainsi, vous êtes de retour en territoire insoluble, mais peut-être sur un terrain légèrement plus raisonné.
Le contre-argument bayésien est que nous devrions nous concentrer sur ce que nous pouvons savoir maintenant et donc ces taux d'erreur ne sont pas aussi importants.
Sur la reproductibilité
Vous semblez suggérer que de multiples comparaisons-corrections incorrectes sont à l'origine de nombreux résultats incorrects / non reproductibles. J'ai l'impression que d'autres facteurs sont plus susceptibles de poser problème. Une évidence est que la pression de publier amène les gens à éviter les expériences qui mettent vraiment en valeur leur hypothèse (c.-à-d. Une mauvaise conception expérimentale).
Par exemple, [dans cette expérience] (partie de l'initiation de reproductibilité d'Amgen (ir) 6 , il s'avère que les souris ont eu des mutations dans des gènes autres que le gène d'intérêt. Andrew Gelman aime aussi parler du Jardin des Chemins de Fourche , dans lequel les chercheurs choisissent un plan d'analyse (raisonnable) basé sur les données, mais auraient pu effectuer d'autres analyses si les données semblaient différentes. Cela gonfle les valeurs de de la même manière que les comparaisons multiples, mais est beaucoup plus difficile à corriger par la suite. Analyse manifestement incorrecte peut également jouer un rôle, mais mon sentiment (et j'espère) est que cela s'améliore progressivement.p