Une différence importante dans l'application habituelle des méthodes de validation croisée et hors bootstrap est que la plupart des gens n'appliquent la validation croisée qu'une seule fois (c'est-à-dire que chaque cas est testé exactement une fois), tandis que la validation hors bootstrap est effectuée avec un grand nombre de répétitions / itérations. Dans cette situation, la validation croisée est sujette à une variance plus élevée en raison de l'instabilité du modèle. Cependant, cela peut être évité en utilisant par exemple la validation croisée itérative / répétée de plis. Si cela est fait, au moins pour les ensembles de données spectroscopiques avec lesquels je travaille, l'erreur totale des deux schémas de rééchantillonnage semble être la même dans la pratique.k
La validation croisée avec omission est déconseillée, car il n'y a aucune possibilité de réduire la variance de type instabilité du modèle et il existe certains classificateurs et problèmes où elle présente un biais pessimiste énorme.
.632 bootstrap fait un travail raisonnable tant que l'erreur de rééchantillonnage qui est mélangée n'est pas trop biaisée de manière optimiste. (Par exemple, pour les données avec lesquelles je travaille, des matrices très larges avec beaucoup de variations, cela ne fonctionne pas très bien car les modèles sont sujets à de graves surajustements). Cela signifie également que j'éviterais d'utiliser le bootstrap .632 pour comparer des modèles de complexité variable. Avec .632+ bootstrap, je n'ai pas d'expérience: si le sur-ajustement se produit et est correctement détecté, il correspondra à l'estimation initiale du bootstrap, donc je m'en tiens à une validation simple ou une validation croisée itérée / répétée pour mes données.
Littérature:
- Kohavi, R .: A Study of Cross-Validation and Bootstrap for Accuracy Estimation and Model Selection Artificial Intelligence Proceedings 14th International Joint Conference, 20 - 25. August 1995, Montréal, Québec, Canada, 1995, 1137 - 1145.
(un classique )
Dougherty et Braga-Neto ont un certain nombre de publications sur le sujet , par exemple
Dougherty, ER et al. : Performances des estimateurs d'erreur pour la classification bioinformatique actuelle, 2010, 5, 53-67
Beleites, C. et al. : Réduction de la variance dans l'estimation de l'erreur de classification à l'aide d'ensembles de données clairsemés Chemom Intell Lab Syst, 2005, 79, 91 - 100.
Nous avons une comparaison de la validation croisée une seule fois ou de l'itération / de la répétition, et la comparons avec out-of-bootstrap et .632 bootstrap également pour des données particulièrement larges avec plusieurs colinéarités.
Kim, J.-H .: Estimation du taux d'erreur de classification: validation croisée répétée, maintien répété et bootstrap, Computational Statistics & Data Analysis, 2009, 53, 3735 - 374
constate également que la validation croisée répétée / itérée de la multiplication et out-of-bootstrap a des performances similaires (par opposition à la validation croisée une seule fois).k
Choix de métrique:
La précision (dont @FrankHarrell vous dira que c'est un mauvais choix car ce n'est pas une règle de notation appropriée ) est sujette à une variance élevée car elle compte chaque cas comme complètement correct ou complètement incorrect, même si le classificateur a prédit par exemple seulement 60 % probabilité postérieure que le cas de test appartienne à la classe en question. Une règle de notation appropriée est par exemple le score de Brier, qui est étroitement lié à l'erreur quadratique moyenne dans la régression.
Des analogies d'erreur quadratique moyenne sont disponibles pour des proportions telles que la précision, la sensibilité, la spécificité, les valeurs prédictives: Beleites, C. et al. : Validation of soft classification models using partial class memberships: An extended concept of sensitive & Co. applied to grading of astrocytoma tissus, Chemom Intell Lab Syst, 2013, 122, 12 - 22; DOI: 10.1016 / j.chemolab.2012.12.003 (page récapitulative donnant également un lien vers la préimpression)
Mon objectif ultime est de pouvoir dire avec une certaine confiance qu'une méthode d'apprentissage automatique est supérieure à une autre pour un ensemble de données particulier.
Utilisez un test apparié pour évaluer cela. Pour comparer les proportions, jetez un œil au test de McNemar.
La réponse à cette question sera affectée par le choix de la métrique. Comme les mesures d'erreur de type régression n'ont pas l'étape de «durcissement» consistant à couper les décisions avec un seuil, elles ont souvent moins de variance que leurs homologues de classification. Des mesures telles que la précision qui sont essentiellement des proportions nécessiteront un grand nombre de cas de test pour établir la supériorité d'un classificateur sur un autre.
Fleiss: «Méthodes statistiques pour les taux et les proportions» donne des exemples (et des tableaux) de comparaison non appariée des proportions. Pour vous donner une idée de ce que je veux dire par "d'énormes tailles d'échantillon", regardez l'image dans ma réponse à cette autre question . Les tests appariés comme celui de McNemar nécessitent moins de cas de test, mais l'IIRC reste dans le meilleur des cas la moitié (?) De la taille de l'échantillon nécessaire pour le test non apparié.
Pour caractériser les performances d'un classificateur (durci), vous avez généralement besoin d'une courbe de travail d'au moins deux valeurs telles que le ROC (sensibilité vs spécificité) ou similaire.
J'utilise rarement la précision globale ou l'ASC, car mes applications ont généralement des restrictions, par exemple que la sensibilité est plus importante que la spécificité, ou certaines limites sur ces mesures doivent être respectées. Si vous optez pour des caractéristiques de somme "à numéro unique", assurez-vous que le point de fonctionnement des modèles que vous regardez est réellement dans une plage raisonnable.
Pour la précision et d'autres mesures de performances qui résument les performances de plusieurs classes selon les étiquettes de référence, assurez-vous de prendre en compte la fréquence relative des classes que vous rencontrerez dans l'application - qui n'est pas nécessairement la même que dans votre données de formation ou de test.
Provost, F. et al. : L'argument contre l'estimation de la précision pour comparer les algorithmes d'induction dans les actes de la quinzième conférence internationale sur l'apprentissage automatique, 1998
modifier: comparer plusieurs classificateurs
Je réfléchis à ce problème depuis un certain temps, mais je n'ai pas encore trouvé de solution (et je n'ai rencontré personne qui avait une solution).
Voici ce que j'ai jusqu'à présent:
Pour le moment, j'ai décidé que "l'optimisation est la racine de tout mal", et j'adopte une approche très différente:
je décide autant que possible par une connaissance experte du problème en question. Cela permet en fait de réduire un peu les choses, de sorte que je peux souvent éviter la comparaison de modèles. Lorsque je dois comparer des modèles, j'essaie d'être très ouvert et clair en rappelant aux gens l'incertitude de l'estimation des performances et que la comparaison de modèles particulièrement multiples est que l'AFAIK reste un problème non résolu.
Edit 2: tests appariés
n12( n2- n )du test se réfère simplement au fait que, comme tous les modèles sont testés avec exactement les mêmes cas de test, vous pouvez diviser les cas en cas "faciles" et "difficiles" d'une part, pour lesquels tous les modèles arrivent à un résultat correct (ou mauvaise) prédiction. Ils n'aident pas à distinguer les modèles. D'un autre côté, il y a les cas "intéressants" qui sont correctement prédits par certains, mais pas par d'autres modèles. Seuls ces cas «intéressants» doivent être pris en considération pour juger de la supériorité, ni les cas «faciles» ni les cas «difficiles» n'y contribuent. (C'est ainsi que je comprends l'idée derrière le test de McNemar).
nn