Quelle est la cause du problème des comparaisons multiples?

Je comprends l'intuition derrière le MCP mais j'ai du mal à identifier exactement la cause, qu'est-ce qui devrait être évité, ou du moins expliqué.

Dans sa définition la plus directe, je conviens que si je prends des données et que j'applique une approche de force brute en essayant toutes les hypothèses nulles possibles, j'en trouverai éventuellement une qui peut être rejetée avec une alfa arbitraire (par exemple, 5%) et déclarer une découverte.

Mais dans de nombreuses définitions de MCP, je lis quelque chose comme "plus vous testez, plus vous êtes susceptible de trouver", et bien que je sois d'accord, je ne le vois pas nécessairement comme un problème (ou du moins la racine du problème). Par exemple, si de nombreux chercheurs analysent le même phénomène avec les mêmes données disponibles, chacun testant sa propre hypothèse, il est plus probable que l'on parvienne à une découverte (que s'il ne s'agissait que d'un seul chercheur), cela signifie-t-il qu'ils devraient appliquer un certain type de correction de leur alfa cible (par exemple, une correction de Bonferroni )? Je suppose que la réponse est non, mais il n'est pas clair pourquoi un seul chercheur testant de nombreuses hypothèses devrait (encore une fois, convenir que le système de test peut être abusé et qu'il devrait y avoir une correction pour cela).

Quand cette chance accrue de trouver une découverte (rejeter une hypothèse nulle) devient-elle un problème? Lorsque vous réfléchissez aux causes, certains facteurs viennent à l'esprit, mais je ne sais pas lequel d'entre eux (ou d'autres non répertoriés ici) est le plus lié à la cause de ce problème:

Analyse post hoc : Je comprends que les hypothèses devraient être (de préférence) formulées a priori, sinon, je regarde simplement les données en essayant de deviner quelle hypothèse je pourrais intégrer sous l'alfa souhaitée.
Réutilisation des données: le problème est-il résolu si j'utilise des ensembles de données différents pour chaque hypothèse que je teste? La chance de trouver une découverte augmentera encore plus d'hypothèses que je teste (même sur différents ensembles de données).
Chercheurs indépendants: en réutilisant l'exemple précédent, le MCP est-il lié à la même équipe / effort de recherche? Ou cela s'applique à plusieurs chercheurs indépendants travaillant sur le même problème (ou même sur des données identiques ou similaires)?
Hypothèses indépendantes: liées au problème précédent, le problème se pose-t-il (ou se manifeste-t-il plus fortement) lorsque les hypothèses sont indépendantes? (parce que je couvre plus d'espace de recherche) ou le problème principal est d'essayer des hypothèses similaires avec de petites variations (par exemple, affiner un paramètre)?

Je pourrais résumer les points ci-dessus, dans mon interprétation, comme (1) et (2) étant des formes de réduction de l'espace de recherche (empruntant la terminologie à la théorie de l'optimisation) où je facilite la recherche d'une découverte; et (3) et (4) comme utilisant davantage de méthodes de recherche orthogonales qui couvrent une plus grande partie de cet espace de recherche chaque fois qu'elles sont appliquées (c'est-à-dire, chaque fois qu'une hypothèse est testée). Mais ce ne sont que quelques causes possibles que je pourrais trouver, pour aider à obtenir une réponse, il y a beaucoup plus que je manque, j'en suis sûr.

Cette question est en quelque sorte la suite d'une précédente qui demande pourquoi la comparaison multiple est un problème , soulevant un problème similaire à la distinction entre le FWER et le FDR (si je comprends bien la question). Dans cette question, je ne considère pas cela comme un problème (bien que je serais plus enclin à utiliser le FDR), les deux taux impliquent qu'il y a un problème lors de l'analyse de plus d'une hypothèse (mais je ne vois pas la distinction par rapport au cas où J'analyse différents problèmes non liés, trouvant une découverte pour chacun d'eux avec une signification de 5%, ce qui signifie que lorsque j'ai "résolu" 100 problèmes rejetant des hypothèses nulles, 5 d'entre eux - valeur attendue - seraient probablement faux). La meilleure réponse à cette question impliquait qu'il n'y avait pas de réponse définitive à cela, et peut-être qu'il n'y en a pas non plus pour cette question, mais il serait toujours très utile (pour moi au moins) d'élucider autant que possible où est la cause de l'erreur MCP provenir de.

( Une autre réponse à la même question a suggéré un document qui explique les avantages de la perspective du modèle bayésien à plusieurs niveaux par rapport à la perspective classique. Il s'agit d'une autre approche intéressante qui mérite d'être étudiée mais la portée de cette question est le cadre classique.)

Il y a déjà plusieurs questions sur ce problème, beaucoup valent la peine d'être lues (par exemple, 1 , 2 , 3 , 4 ) qui abordent (sous différents angles) les problèmes soulevés ci-dessus, mais je ressens toujours une réponse plus unifiée (si cela est même possible) fait défaut, d'où cette question qui, je l'espère, ne diminue pas le SNR (déjà problématique) .

hypothesis-testing multiple-comparisons

— Paul Richards
source

"… Plus vous testez, plus vous êtes susceptible d'en trouver" uniquement par hasard . FTFY . :) Autrement dit, "uniquement en raison du hasard" plutôt que "en raison d'une véritable association".

— Alexis

Je suis d'accord, cela s'applique non seulement à vous mais aux autres combinés. Cependant, cela ne devrait pas vous empêcher de faire une analyse exploratoire des données qui peut ensuite être suivie de manière rigoureuse et individuelle avec d'autres données obtenues indépendamment.

— Robert Jones

Voir ncbi.nlm.nih.gov/pmc/articles/PMC3659368 pour un exemple célèbre, important et dramatique.

— whuber

Ce que je note, c'est plusieurs exemples du mot «découverte» dans la question. Si vous relisez la question en remplaçant chaque «découverte» par «fausse découverte», cela peut vous aider à mieux comprendre la nature du problème.

— Russ Lenth

Il semble que, étant donné un ensemble de données, plus l'ensemble de données est petit et plus les chercheurs y travaillent, plus il est probable qu'une corrélation parasite soit trouvée dans l'ensemble de données en raison du hasard. Cela ressemble à un grand groupe de personnes essayant de «trouver» les numéros de billets de loterie gagnants. Une hypothèse trouvée sur un ensemble de données doit être vérifiée indépendamment sur un autre ensemble de données pour réduire les chances que la découverte soit fausse; mais cela dépend de la taille de l'ensemble de données, du nombre de recherches qui y travaillent et de la confiance que vous pouvez accorder à leurs processus d'hygiène des données.

— rinspy

Réponses:

Votre intuition est à peu près correcte, mais elle peut aider à considérer comment la comparaison multiple sape les hypothèses du test d'hypothèse lui-même. Lorsque vous effectuez un test d'hypothèse classique, vous générez une valeur de p, qui est une mesure de la preuve par rapport à l'hypothèse nulle. La valeur de p est construite de telle manière que des valeurs inférieures constituent une plus grande évidence contre le nul, et elle est distribuée uniformément sous l'hypothèse nulle . C'est ce qui permet de considérer l'hypothèse nulle comme peu plausible pour les faibles valeurs de p (par rapport au niveau de signification).

Supposons que vous décidiez de tester $N > 1$ hypothèses sans faire aucun ajustement à votre méthode de test pour tenir compte des comparaisons multiples. Chaque valeur de p pour ces tests est une variable aléatoire qui est uniforme sous l'hypothèse nulle pour ce test. Donc, si aucune des hypothèses alternatives de ces tests n'est vraie (c'est-à-dire que toutes les hypothèses nulles sont vraies), vous avez $p_1, ..., p_N \sim \text{U}(0, 1)$ (ces valeurs ne sont généralement pas indépendantes). Supposons que vous choisissez un niveau de signification $0 < \alpha < 1$ et vous testez toutes ces hypothèses par rapport à ce niveau. Pour ce faire, vous regardez les valeurs de p ordonnées et observez que vous avez $p_{(1)} < ... < p_{(k)} < \alpha < p_{(k+1)} ... < p_{(N)}$ pour certains $0 \leqslant k \leqslant N$ . Cela vous indique que pour les premiers tests (correspondant aux valeurs de p ordonnées), vous devez rejeter l'hypothèse nulle pour chacun de ces tests. $k$

Quel est le problème ici? Eh bien, le problème est que, bien que les valeurs de p de chacun des tests soient uniformes sous leurs hypothèses nulles respectives, les valeurs de p ordonnées ne sont pas uniformes. En sélectionnant les valeurs p les plus basses qui sont inférieures au niveau de signification, vous ne regardez plus les variables aléatoires qui sont uniformes sous leurs hypothèses nulles respectives. En fait, pour les grands , les valeurs de p les plus faibles sont susceptibles d'avoir une distribution qui est fortement concentrée près de zéro, et donc elles sont très susceptibles d'être en dessous de votre niveau de signification, même si (par hypothèse) toutes les hypothèses nulles pour votre les tests sont vrais. $k$ $N$

Ce phénomène se produit indépendamment du fait que les valeurs de p soient indépendantes ou non, et se produit donc indépendamment du fait que vous utilisiez les mêmes données ou des données différentes pour tester ces hypothèses. Le problème des comparaisons multiples est que les valeurs de p inférieures des tests auront des distributions nulles marginales qui ne sont pas uniformes . Des ajustements tels que la correction de Bonferroni tentent de résoudre ce problème en ajustant les valeurs de p ou les niveaux de signification pour créer une comparaison qui tient compte de ce phénomène. $N$

— Ben - Réintègre Monica
source

Donc, si nous prenons l'exemple donné dans le PO d'un chercheur effectuant plusieurs tests sur un ensemble de données vs de nombreux chercheurs individuels effectuant chacun un test sur le même ensemble de données de sorte que l'ensemble des valeurs de p pour le premier soit le même que la combinaison de les valeurs individuelles de p pour ce dernier, alors quoi? La même valeur de p pour l'un des tests est significative dans ce dernier cas, mais pas significative après l'ajustement pour MCP dans le premier? Ainsi, lors de tests multiples, il est préférable d'écrire un article collaboratif impliquant autant de chercheurs qu'il y a de tests prévus? :)

— Confondu

Peu importe que vous écriviez un article sur 10 tests ou dix articles sur 1 test, le problème est le même --- lorsque vous regardez plusieurs comparaisons et choisissez les tests avec des valeurs de p faibles, puis conditionnellement à ce choix, le p- les valeurs ne sont plus uniformes. Si dix chercheurs écrivent dix articles individuels rapportant des résultats de test individuels, et que vous retirez celui qui a la valeur p la plus faible (par exemple, pour une présentation), car il a la valeur p la plus faible , alors, sous réserve de ce choix, la valeur p n'est plus uniforme.

— Ben - Réintègre Monica

Désolé, mais je ne suis toujours pas sûr de suivre l'argument. Disons que le même ensemble de données est testé sur la génération à partir de 10 distributions différentes. Et disons que pour 3 de ces tests, la valeur p est inférieure à un seuil alpha. Ainsi, lorsque ces tests sont effectués séparément par des chercheurs individuels, ceux qui ont testé contre ces 3 distributions peuvent rejeter le zéro des données provenant de la distribution particulière qu'il a testée, mais si un chercheur effectue les tests, il ne peut pas rejeter les 3 hypothèse nulle?

— Confondu

Il se pourrait bien que chaque chercheur individuel (n'ayant aucune connaissance des autres tests) effectue un test d'hypothèse sans aucun ajustement, par rapport à un niveau de signification standard. Cependant, si une personne arrive et lit tous ces documents, elle doit tenir compte de l'ensemble des preuves de chacun d'eux. Cela signifie que s'ils choisissent le papier avec la valeur p la plus faible, ils ne doivent pas évaluer cette valeur p indépendamment des autres. Le faire les biaiserait vers l'acceptation d'une fausse hypothèse alternative.

— Ben - Réintègre Monica

(Cela fait vraiment partie d'un problème statistique plus large: si l'objet d'inférence que vous utilisez est affecté par vos données, la bonne utilisation de cet objet d'inférence doit tenir compte de sa dépendance à l'égard des données.)

— Ben - Réinstallez Monica

Vous semblez supposer qu'un chercheur peut savoir quand une découverte est faite. Ce n'est pas le cas. Même si vous "trouvez une découverte", vous ne pouvez jamais être sûr que vous l'avez fait (à moins que vous ne soyez une sorte d'omniscient), car, aussi déconcertant que cela puisse paraître, ce qui distingue une fausse alarme d'une découverte scientifique est généralement un certain degré de «confiance» humaine dans l'analyse.

— marsarius
source