J'ai bien peur que les questions connexes n'aient pas répondu aux miennes. Nous évaluons les performances de> 2 classificateurs (machine learning). Notre hypothèse nulle est que les performances ne diffèrent pas. Nous effectuons des tests paramétriques (ANOVA) et non paramétriques (Friedman) pour évaluer cette hypothèse. S'ils sont importants, nous voulons savoir quels classificateurs diffèrent dans une quête post-hoc.
Ma question est double:
1) Une correction des valeurs de p après des tests de comparaisons multiples est-elle nécessaire? Le site allemand Wikipédia sur "Alphafehler Kumulierung" dit que le problème ne se produit que si plusieurs hypothèses sont testées sur les mêmes données. Lors de la comparaison des classificateurs (1,2), (1,3), (2,3), les données ne se chevauchent que partiellement. Faut-il encore corriger les valeurs de p?
2) La correction de la valeur P est souvent utilisée après un test par paire avec un test t. Est-il également nécessaire lors de tests post-hoc spécialisés, tels que le test HSD de Nemenyi (non paramétrique) ou de Tukey? Cette réponse dit «non» pour le HSD de Tukey: le test HSD de Tukey corrige-t-il les comparaisons multiples? . Existe-t-il une règle ou dois-je la rechercher pour chaque test post-hoc potentiel?
Merci!