Ma question porte sur la validation croisée lorsqu'il y a beaucoup plus de variables que d'observations. Pour fixer les idées, je propose de me limiter au cadre de classification en très haute dimension (plus de fonctionnalités que d'observation).
Problème: Supposons que pour chaque variable vous avez une mesure d'importance que mesure exactement l'intérêt de la caractéristique pour le problème de classification. Le problème de la sélection d'un sous-ensemble d'entités pour réduire de manière optimale l'erreur de classification est alors réduit à celui de trouver le nombre d'entités.
Question: Quelle est la manière la plus efficace d'exécuter la validation croisée dans ce cas (schéma de validation croisée)? Ma question n'est pas de savoir comment écrire le code mais sur la version de validation croisée à utiliser lorsque vous essayez de trouver le nombre de fonctionnalités sélectionnées (pour minimiser l'erreur de classification) mais comment gérer la dimension élevée lors de la validation croisée (d'où la problème ci-dessus peut être un peu comme un «problème de jouet» pour discuter de CV en haute dimension).
Notations: est la taille de l'ensemble d'apprentissage, p le nombre d'entités (c'est-à-dire la dimension de l'espace d'entités). Par dimension très élevée, je veux dire p >> n (par exemple et ).