Récemment, j'ai beaucoup lu sur ce site (@Aniko, @Dikran Marsupial, @Erik) et ailleurs sur le problème du surajustement avec une validation croisée - (Smialowski et al 2010, Bioinformatics, Hastie, Éléments d'apprentissage statistique). Il est suggéré que toute sélection de caractéristique supervisée (utilisant la corrélation avec les étiquettes de classe) effectuée en dehors de l'estimation de performance du modèle à l'aide de la validation croisée (ou d'une autre méthode d'estimation de modèle telle que l'amorçage) peut entraîner un surajustement.
Cela ne me semble pas intuitif - si vous sélectionnez un ensemble de fonctionnalités puis évaluez votre modèle en utilisant uniquement les fonctionnalités sélectionnées à l'aide de la validation croisée, vous obtenez une estimation non biaisée de la performance généralisée du modèle pour ces fonctionnalités (cela suppose que l'échantillon étudié soit représentatif de la populatation)?
Avec cette procédure, on ne peut bien sûr pas revendiquer un ensemble de fonctionnalités optimal, mais peut-on également indiquer que les performances du jeu de fonctionnalités sélectionné sur des données invisibles sont valides?
J'accepte le fait que la sélection de caractéristiques sur l'ensemble du jeu de données peut entraîner certaines fuites de données entre les ensembles de test et de train. Mais si l'ensemble de fonctionnalités est statique après la sélection initiale et qu'aucun autre réglage n'est effectué, il est sûrement possible de signaler les métriques de performance validées de manière croisée.
Dans mon cas, j'ai 56 fonctionnalités et 259 cas et ainsi #cases> #features. Les caractéristiques sont dérivées des données du capteur.
Toutes mes excuses si ma question semble dérivée, mais cela semble être un point important à clarifier.
Edit: Lors de la mise en œuvre de la sélection des fonctionnalités dans la validation croisée sur le jeu de données détaillé ci-dessus (grâce aux réponses ci-dessous), je peux confirmer que la sélection des fonctionnalités avant la validation croisée dans ce jeu de données a introduit un impact significatif.partialité. Ce biais / surajustement était le plus important dans le cas d’une formulation à 3 classes, par rapport à une formulation à 2 classes. Je pense que le fait d’avoir utilisé la régression par étapes pour la sélection des caractéristiques a augmenté ce sur-ajustement; à des fins de comparaison, sur un ensemble de données différent mais lié, j'ai comparé un sous-programme séquentiel de sélection de fonction avant exécuté avant la validation croisée par rapport à des résultats que j'avais précédemment obtenus avec la sélection de caractéristique dans CV. Les résultats entre les deux méthodes ne différaient pas considérablement. Cela peut signifier que la régression pas à pas est plus encline à sur-adapter que les FS séquentielles ou peut être une bizarrerie de cet ensemble de données.