Question très intéressante, je vais devoir lire les articles que vous donnez ... Mais peut-être que cela nous amènera dans le sens d'une réponse:
J'aborde habituellement ce problème de manière très pragmatique: j'itère la validation croisée k-fold avec de nouvelles divisions aléatoires et calcule les performances comme d'habitude pour chaque itération. Les échantillons de test globaux sont alors les mêmes pour chaque itération, et les différences proviennent de différentes divisions des données.
C'est ce que je signale, par exemple, comme le 5e au 95e centile des performances observées par rapport au poids. échange jusqu'à échantillons pour de nouveaux échantillons et en discuter comme mesure de l'instabilité du modèle.nk- 1
Note latérale: je ne peux de toute façon pas utiliser des formules qui nécessitent la taille de l'échantillon. Comme mes données sont structurées en grappes ou hiérarchiques (de nombreuses mesures similaires mais non répétées du même cas, généralement plusieurs [centaines] emplacements différents du même échantillon), je ne connais pas la taille effective de l'échantillon.
comparaison avec le bootstrap:
les itérations utilisent de nouvelles divisions aléatoires.
la principale différence est le rééchantillonnage avec (bootstrap) ou sans (cv) remplacement.
≈
bootstrap a des avantages par rapport à cv en termes de certaines propriétés statistiques (asymptotiquement correct, peut-être avez-vous besoin de moins d'itérations pour obtenir une bonne estimation)
cependant, avec le cv, vous avez l’avantage de vous garantir que
- le nombre d'échantillons d'apprentissage distincts est le même pour tous les modèles (important si vous souhaitez calculer des courbes d'apprentissage)
- chaque échantillon est testé exactement une fois à chaque itération
certaines méthodes de classification élimineront les échantillons répétés, donc le bootstrap n'a pas de sens
Variance pour la performance
réponse courte: oui, il est logique de parler de variance dans une situation où seuls {0,1} résultats existent.
Jetez un œil à la distribution binomiale (k = succès, n = tests, p = probabilité réelle de succès = k / n moyen):
σ2( k ) = n p ( 1 - p )
pp^
- Fleiss: Méthodes statistiques pour les taux et les proportions
- Forthofer et Lee: La biostatistique a une belle introduction.
p^= kn
σ2( p^) = p ( 1 - p )n
Cela signifie que l'incertitude pour mesurer les performances du classificateur ne dépend que des performances réelles p du modèle testé et du nombre d'échantillons de test.
Dans la validation croisée, vous supposez
que les k modèles "de substitution" ont les mêmes performances réelles que le "vrai" modèle que vous construisez habituellement à partir de tous les échantillons. (La ventilation de cette hypothèse est le biais pessimiste bien connu).
que les k modèles «de substitution» ont les mêmes performances réelles (sont équivalents, ont des prédictions stables), vous êtes donc autorisé à regrouper les résultats des k tests.
Bien entendu, non seulement les k modèles "de substitution" d'une itération de cv peuvent être regroupés, mais les modèles ki d'i itérations de k-fold cv.
Pourquoi répéter?
La principale chose que les itérations vous disent est l'instabilité du modèle (prédiction), c'est-à-dire la variance des prédictions de différents modèles pour le même échantillon.
p^
Et oui, ce sont des informations importantes.
nb o o t s t r a pk ⋅ ni t e r . c v n - 1 ≈ nσ2( p^) = p ( 1 - p )n
pknp^n
Si vous observez l'instabilité du modèle, la moyenne regroupée est une meilleure estimation de la performance réelle. La variance entre les itérations est une information importante, et vous pouvez la comparer à la variance minimale attendue pour un ensemble de test de taille n avec des performances moyennes réelles sur toutes les itérations.