Je compare les performances de plusieurs algorithmes sur plusieurs ensembles de données. Comme ces mesures de performances ne sont pas garanties d'être distribuées normalement, j'ai choisi le test de Friedman avec le test post-hoc de Nemenyi basé sur Demšar (2006) .
J'ai ensuite trouvé un autre article qui, en plus de suggérer d'autres méthodes comme le test Quade avec le test post-hoc Shaffer subséquent, applique le test Nemenyi différemment.
Comment appliquer correctement le test post-hoc Nemenyi?
1. En utilisant la statistique de la plage Studentized?
Dans l'article de Demšar, il dit de rejeter l'hypothèse nulle (pas de différence de performance de deux algorithmes) si la différence de rang moyenne est supérieure à la distance critique CD avec
"où les valeurs critiques qα sont basées sur la statistique de la plage Studentized divisée par "
Après quelques recherches, j'ai découvert que vous pouvez rechercher ces "valeurs critiques" pour certains alphas, par exemple dans un tableau pour , pour des degrés de liberté infinis (au bas de chaque tableau).
2. ou en utilisant la distribution normale?
Juste au moment où je pensais que je savais quoi faire, j'ai trouvé un autre papier qui m'a de nouveau dérouté, car ils n'utilisaient que la distribution normale. Demšar déclare une chose similaire à la page 12:
Les statistiques de test pour comparer les i-ème et j-ème classi fi cateurs à l'aide de ces méthodes sont La valeur z est utilisée pour trouver la probabilité correspondante à partir du tableau de distribution normale, qui est ensuite comparée à un approprié . Les tests diffèrent dans la façon dont ils ajustent la valeur de pour compenser les comparaisons multiples.
Dans ce paragraphe, il parlait de comparer tous les algorithmes à un algorithme de contrôle, mais la remarque "diffère dans la façon dont ils s'ajustent ... pour compenser les comparaisons multiples" suggère que cela devrait également être valable pour le test de Nemenyi.
Donc, ce qui me semble logique, c'est de calculer la valeur p en fonction de la statistique de test , qui est normalement distribuée, et de corriger celle-ci en divisant par .
Cependant, cela donne des différences de rang complètement différentes pour rejeter l'hypothèse nulle. Et maintenant je suis bloqué et je ne sais pas quelle méthode appliquer. Je penche fortement vers celui qui utilise la distribution normale , car c'est plus simple et plus logique pour moi. Je n'ai pas non plus besoin de rechercher des valeurs dans les tableaux et je ne suis pas lié à certaines valeurs de signification.
Là encore, je n'ai jamais travaillé avec la statistique de gamme étudiée et je ne la comprends pas.