Quand corriger les valeurs de p dans des comparaisons multiples?


11

J'ai bien peur que les questions connexes n'aient pas répondu aux miennes. Nous évaluons les performances de> 2 classificateurs (machine learning). Notre hypothèse nulle est que les performances ne diffèrent pas. Nous effectuons des tests paramétriques (ANOVA) et non paramétriques (Friedman) pour évaluer cette hypothèse. S'ils sont importants, nous voulons savoir quels classificateurs diffèrent dans une quête post-hoc.

Ma question est double:

1) Une correction des valeurs de p après des tests de comparaisons multiples est-elle nécessaire? Le site allemand Wikipédia sur "Alphafehler Kumulierung" dit que le problème ne se produit que si plusieurs hypothèses sont testées sur les mêmes données. Lors de la comparaison des classificateurs (1,2), (1,3), (2,3), les données ne se chevauchent que partiellement. Faut-il encore corriger les valeurs de p?

2) La correction de la valeur P est souvent utilisée après un test par paire avec un test t. Est-il également nécessaire lors de tests post-hoc spécialisés, tels que le test HSD de Nemenyi (non paramétrique) ou de Tukey? Cette réponse dit «non» pour le HSD de Tukey: le test HSD de Tukey corrige-t-il les comparaisons multiples? . Existe-t-il une règle ou dois-je la rechercher pour chaque test post-hoc potentiel?

Merci!


Pourquoi vous effectuez deux ANOVA et des tests Friedman?
Alexis

Il s'agit d'un cadre de test automatisé qui devrait fournir au réviseur une alternative à la fois paramétrique et non paramétrique, si les hypothèses paramétriques ne sont pas remplies.
Chris

1
À propos des tests omnibus que vous avez mentionnés: (A) si vos groupes de données sont indépendants, vous devez utiliser le test ANOVA (paramétrique) ou Kruskal-Wallis (non paramétrique); (B) si vos groupes sont dépendants (par exemple, mesures répétées), vous devez utiliser soit le test ANOVA (paramétrique) soit le test de Friedman (non paramétrique). Test (classique) ANOVA et Friedman car son alternative ne semble pas correcte.
GegznaV

Réponses:


10

Réponse à la question 1
Vous devez ajuster les comparaisons multiples si vous vous souciez de la probabilité de commettre une erreur de type I. Une simple combinaison de métaphore / expérience de pensée peut aider:

Imaginez que vous voulez gagner à la loterie. Cette loterie, étrangement, vous donne 0,05 chance de gagner (soit 1 sur 20). M est le coût du billet dans cette loterie, ce qui signifie que votre retour prévu pour un seul appel de loterie est M / 20. Maintenant encore plus étrange, imaginez que pour des raisons inconnues, ce coût, M , vous permet d'avoir autant de billets de loterie que vous le souhaitez (ou au moins plus de deux). En pensant à vous-même "plus vous jouez, plus vous gagnez", vous prenez un tas de billets. Votre retour prévu sur un appel de loterie n'est plus M / 20, mais quelque chose d'un peu plus grand. Remplacez maintenant "gagner à la loterie" par "faire une erreur de type I."

Si vous ne vous souciez pas des erreurs et que vous ne vous souciez pas que les gens dirigent votre attention de façon répétée et moqueuse vers un certain dessin animé sur les bonbons , alors allez-y et ne vous ajustez pas pour des comparaisons multiples.

Le problème des «mêmes données» se pose dans les méthodes de correction des erreurs au niveau de la famille (par exemple Bonferroni, Holm-Sidák, etc.), car le concept de «famille» est quelque peu vague. Cependant, les méthodes de taux de fausses découvertes (par exemple Benjamini et Hochberg, Benjamini et Yeuketeli, etc.) ont la propriété que leurs résultats sont robustes à travers différents groupes d'inférences.


Réponse à la question 2
La plupart des tests par paire nécessitent une correction, bien qu'il existe des différences stylistiques et disciplinaires dans ce qui est appelé test. Par exemple, certaines personnes se réfèrent aux " tests de Bonferroni t " (ce qui est une astuce intéressante, car Bonferroni n'a développé ni le test t , ni l'ajustement de Bonferroni pour des comparaisons multiples :). Personnellement, je trouve cela insatisfaisant, car (1) je voudrais faire une distinction entre la réalisation d'un groupe de tests statistiques et l'ajustement pour plusieurs comparaisons afin de comprendre efficacement les inférences que je fais, et (2) lorsque quelqu'un vient avec un nouveau test par paire fondé sur une définition solide de , alors je sais que je peux effectuer des ajustements pour plusieurs comparaisons.α


2
+1 pour une réponse complète et humoristique (et pour faire référence à xkcd). En particulier, vous avez également abordé ma question encore non verbalisée s'il y a une différence entre "Bonferroni-test" et "Bonferroni-correction". Néanmoins, pourriez-vous expliquer le problème des comparaisons multiples en termes de description de mon problème? Je comprends qu'un classificateur est comme un groupe de traitement sans gelée / bleu / vert / ... dans la bande dessinée.
Chris

@Chris Vous êtes les bienvenus ... Je ne sais pas trop ce que vous demandez. Oui, des comparaisons multiples sont nécessaires. Oui, vous pouvez effectuer des ajustements FWER ou FDR sur tout test par paire qui renvoie des valeurs (les procédures modifient généralement les valeurs ou modifient le niveau de rejet, soit globalement, soit séquentiellement). pp
Alexis

Je pense que ça va, merci beaucoup! Cela pourrait me prendre un peu plus de temps pour appliquer l'exemple de loterie à mon cas d'utilisation, mais j'ai eu l'idée.
Chris

@Chris comprend que la loterie n'était qu'une métaphore. Si vous avez besoin d'aide pour appliquer les méthodes FWER ou FDR, consultez les entrées de Wikipédia, recherchez des questions connexes ici ou, peut-être, posez une nouvelle question à ce sujet. :)
Alexis
En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.