La normalisation des données (pour avoir une moyenne nulle et un écart-type unitaire) avant d'effectuer une validation croisée multipliée par k a-t-elle des conséquences négatives telles qu'un sur-ajustement?
Remarque: c'est pour une situation où #cases> total #features
Je transforme certaines de mes données à l'aide d'une transformation de journal, puis normalise toutes les données comme ci-dessus. J'effectue ensuite la sélection des fonctionnalités. Ensuite, j'applique les fonctionnalités sélectionnées et les données normalisées à une validation croisée répétée de 10 fois pour essayer d'estimer les performances du classificateur généralisé et je crains que l'utilisation de toutes les données pour normaliser ne soit pas appropriée. Dois-je normaliser les données de test pour chaque pli en utilisant les données de normalisation obtenues à partir des données d'entraînement pour ce pli?
Toutes les opinions reçues avec reconnaissance! Toutes mes excuses si cette question semble évidente.
Edit: En testant cela (conformément aux suggestions ci-dessous), j'ai trouvé que la normalisation avant CV ne faisait pas beaucoup de différence en termes de performances par rapport à la normalisation dans CV.