Il existe de nombreuses situations où vous pouvez former plusieurs classificateurs différents ou utiliser plusieurs méthodes d'extraction de fonctionnalités différentes. Dans la littérature, les auteurs donnent souvent l'erreur de classification moyenne sur un ensemble de divisions aléatoires des données (c'est-à-dire après une validation croisée doublement imbriquée), et donnent parfois aussi des variances sur l'erreur sur les divisions. Cependant, cela ne suffit pas à lui seul pour dire qu'un classificateur est nettement meilleur qu'un autre. J'ai vu de nombreuses approches différentes à ce sujet - en utilisant des tests Chi-carré, t-test, ANOVA avec des tests post-hoc, etc.
Quelle méthode devrait être utilisée pour déterminer la signification statistique? La question sous-jacente est la suivante: quelles hypothèses devrions-nous faire concernant la distribution des scores de classification?