Je fais l'analyse exploratoire des données (EDA) sur un ensemble de données. Ensuite, je sélectionnerai certaines fonctionnalités pour prédire une variable dépendante.
La question est:
dois-je faire l'EDA sur mon ensemble de données de formation uniquement? Ou dois-je joindre les ensembles de données de formation et de test ensemble, puis faire l'EDA sur les deux et sélectionner les fonctionnalités en fonction de cette analyse?