La stratification vise à garantir que chaque pli est représentatif de toutes les strates des données. Généralement, cela se fait de manière supervisée pour la classification et vise à assurer que chaque classe est (approximativement) également représentée à travers chaque pli de test (qui sont bien entendu combinés de manière complémentaire pour former des plis d’entraînement).
L'intuition derrière cela est liée au biais de la plupart des algorithmes de classification. Ils ont tendance à pondérer équitablement chaque instance, ce qui signifie que les classes surreprésentées ont trop de poids (par exemple, l'optimisation de la mesure F, la précision ou une forme d'erreur complémentaire). La stratification n’est pas aussi importante pour un algorithme qui pondère chaque classe de la même manière (par exemple, optimisation de Kappa, Informedness ou ROC AUC) ou selon une matrice de coût mal classer). Voir, par exemple, DMW Powers (2014), Ce que la mesure F ne mesure pas: caractéristiques, défauts, erreurs et correctifs. http://arxiv.org/pdf/1503.06410
Un problème spécifique, qui est important pour tous les algorithmes, même non biaisés ou équilibrés, est qu’ils ont tendance à ne pas être en mesure d’apprendre ou de tester une classe qui n’est pas représentée du tout dans un repli. représenté dans un pli ne permet pas la généralisation effectuée resp. évalué. Cependant, même cette considération n'est pas universelle et ne s'applique pas beaucoup, par exemple, à l'apprentissage par classe, qui tente de déterminer ce qui est normal pour une classe individuelle, et identifie efficacement les valeurs éloignées comme étant une classe différente, étant donné que la validation croisée consiste à déterminer des statistiques ne générant pas de classificateur spécifique.
D'autre part, la stratification supervisée compromet la pureté technique de l'évaluation car les étiquettes des données de test ne doivent pas affecter la formation, mais la stratification est utilisée dans la sélection des instances de formation. Une stratification non supervisée est également possible en répartissant des données similaires en ne regardant que les attributs des données, et non la vraie classe. Voir, par exemple, http://citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.469.8855 .
NA Diamantidis, D. Karlis, EA Giakoumakis (1997), Stratification non supervisée de la validation croisée pour l'estimation de la précision.
La stratification peut également être appliquée à la régression plutôt qu'à la classification, auquel cas, comme pour la stratification non supervisée, la similarité plutôt que l'identité est utilisée, mais la version supervisée utilise la valeur de fonction vraie connue.
Les complications suivantes sont des classes rares et une classification multilabel, où les classifications sont effectuées sur plusieurs dimensions (indépendantes). Ici, les nuplets des étiquettes vraies dans toutes les dimensions peuvent être traités comme des classes aux fins de validation croisée. Cependant, toutes les combinaisons ne se produisent pas nécessairement et certaines combinaisons peuvent être rares. Les classes rares et les combinaisons rares posent un problème en ce sens qu'une classe / combinaison apparaissant au moins une fois mais moins de K fois (en K-CV) ne peut pas être représentée dans tous les plis du test. Dans de tels cas, on pourrait plutôt envisager une forme de surenchère stratifiée (échantillonnage avec remplacement pour générer un repli d’entraînement complet avec des répétitions attendues et 36,8% attendus non sélectionnés pour le test, une instance de chaque classe étant sélectionnée initialement sans remplacement pour le repli du test). .
Une autre approche de la stratification multilabel consiste à essayer de stratifier ou d’amorcer chaque dimension de classe séparément sans chercher à garantir une sélection représentative des combinaisons. Avec L étiquettes et N instances et Kkl d'instances de classe k pour étiquette l, nous pouvons choisir de manière aléatoire (sans remplacement) dans l'ensemble correspondant d'instances étiquetées Dkl approximativement N / LKkl instances. Ceci n'assure pas un équilibre optimal mais cherche plutôt un équilibre de manière heuristique. Cela peut être amélioré en interdisant la sélection d'étiquettes égales ou supérieures au quota, à moins que le choix ne soit pas fait (certaines combinaisons n'existant pas ou rares). Les problèmes tendent à signifier soit qu'il y a trop peu de données, soit que les dimensions ne sont pas indépendantes.