Nous avons un petit ensemble de données (environ 250 échantillons * 100 entités) sur lequel nous voulons construire un classificateur binaire après avoir sélectionné le meilleur sous-ensemble d'entités. Disons que nous partitionnons les données en:
Formation, validation et tests
Pour la sélection des fonctionnalités, nous appliquons un modèle de wrapper basé sur la sélection des fonctionnalités optimisant les performances des classificateurs X, Y et Z, séparément. Dans cette étape de prétraitement, nous utilisons des données de formation pour former les classificateurs et des données de validation pour évaluer chaque sous-ensemble de fonctionnalités candidat.
À la fin, nous voulons comparer les différents classificateurs (X, Y et Z). Bien sûr, nous pouvons utiliser la partie test des données pour avoir une comparaison et une évaluation équitables. Cependant, dans mon cas, les données de test seraient vraiment petites (environ 10 à 20 échantillons) et donc, je veux appliquer une validation croisée pour évaluer les modèles.
La distribution des exemples positifs et négatifs est très mal équilibrée (environ 8: 2). Ainsi, une validation croisée pourrait nous manquer dans l'évaluation des performances. Pour surmonter cela, nous prévoyons d'avoir la partie test (10-20 échantillons) comme deuxième méthode de comparaison et de valider la validation croisée.
En résumé, nous partitionnons les données en formation, validation et tests. Les pièces de formation et de validation doivent être utilisées pour la sélection des fonctionnalités. Ensuite, une validation croisée sur les mêmes données doit être appliquée pour estimer les modèles. Enfin, les tests sont utilisés pour valider la validation croisée compte tenu du déséquilibre des données.
La question est: si nous utilisons les mêmes données (formation + validation) utilisées pour sélectionner les fonctionnalités optimisant les performances des classificateurs X, Y et Z, pouvons-nous appliquer une validation croisée sur les mêmes données (formation + validation) utilisées pour la sélection des fonctionnalités mesurer la performance finale et comparer les classificateurs?
Je ne sais pas si ce paramètre pourrait conduire à une mesure de validation croisée biaisée et entraîner une comparaison non justifiée ou non.