C'est en réponse à @vinesh ainsi qu'en regardant le principe général de la question d'origine.
Il y a vraiment 2 problèmes ici avec les comparaisons multiples: à mesure que nous augmentons le nombre de comparaisons effectuées, nous avons plus d'informations qui permettent de voir plus facilement les différences réelles, mais l'augmentation du nombre de comparaisons facilite également la détection des différences qui n'existent pas (faux positifs, dragage de données, torturer les données jusqu'à ce qu'elles confessent).
Pensez à une classe de 100 élèves, chacun reçoit une pièce équitable et doit retourner la pièce 10 fois et utiliser les résultats pour tester l'hypothèse nulle que la proportion de têtes est de 50%. Nous nous attendrions à ce que les valeurs de p se situent entre 0 et 1 et, par hasard, nous nous attendrions à ce qu'environ 5 des élèves obtiennent des valeurs de p inférieures à 0,05. En fait, nous serions très surpris si aucun d'entre eux n'obtenait une valeur de p inférieure à 0,05 (moins de 1% de chance que cela se produise). Si nous ne regardons que les quelques valeurs significatives et ignorons toutes les autres, nous conclurons à tort que les pièces sont biaisées, mais si nous utilisons une technique qui prend en compte les comparaisons multiples, nous jugerons probablement encore correctement que les pièces sont justes. (ou du moins ne pas rejeter cela ou juste).
D'un autre côté, considérons un cas similaire où 10 élèves lancent un dé et déterminent si la valeur est dans l'ensemble {1,2,3} ou l'ensemble {4,5,6} dont chacun aura 50% chance à chaque lancer si le dé est juste (mais pourrait être différent si le dé est truqué). Les 10 élèves calculent les valeurs p (la valeur nulle est 50%) et obtiennent des valeurs comprises entre 0,06 et 0,25. Maintenant, dans ce cas, aucun d'entre eux n'a atteint le seuil magique de 5%, donc en regardant les résultats individuels des élèves, cela n'entraînera pas une déclaration non équitable, mais toutes les valeurs de p sont inférieures à 0,5, si tous les dés sont justes alors les valeurs de p doivent être uniformément réparties et ont 50% de chances d'être supérieures à 0,5. La chance d'obtenir 10 valeurs de p indépendantes toutes inférieures à 0,5 lorsque les valeurs nulles sont vraies est inférieure à la magie 0,05 et cela suggère que les dés sont biaisés,
Maintenant, le retournement de pièces et le lancer de dés sont un peu artificiels, donc un exemple différent: j'ai un nouveau médicament que je veux tester. Mon budget me permet de tester le médicament sur 1000 sujets (ce sera une comparaison par paires avec chaque sujet étant leur propre contrôle). J'envisage 2 plans d'étude différents, dans le premier j'ai recruté 1 000 sujets qui font l'étude et rapportent une seule valeur p. Dans le deuxième plan, j'ai recruté 1 000 sujets mais les ai divisés en 100 groupes de 10 chacun, je fais l'étude sur chacun des 100 groupes de 10 et je calcule une valeur de p pour chaque groupe (100 valeurs de p totales). Réfléchissez aux différences potentielles entre les 2 méthodologies et à la façon dont les conclusions pourraient différer. Une approche objective nécessiterait que les deux modèles d'étude conduisent à la même conclusion (étant donné les mêmes 1 000 patients et tout le reste est le même).
@mljrg, pourquoi avez-vous choisi de comparer g1 et g2? Si c'était une question d'intérêt avant de collecter des données, alors la valeur p de MW est raisonnable et significative, cependant si vous avez fait le test KW, vous avez ensuite regardé quels groupes étaient les plus différents et le test MW n'a été effectué que sur ceux qui semblait le plus différent, les hypothèses du test MW ont été violées et la valeur p MW n'a pas de sens et la valeur p KW est la seule à avoir une signification potentielle.