Est-il préférable de faire une analyse exploratoire des données sur l'ensemble de données de formation uniquement?

15

Je fais l'analyse exploratoire des données (EDA) sur un ensemble de données. Ensuite, je sélectionnerai certaines fonctionnalités pour prédire une variable dépendante.

La question est:
dois-je faire l'EDA sur mon ensemble de données de formation uniquement? Ou dois-je joindre les ensembles de données de formation et de test ensemble, puis faire l'EDA sur les deux et sélectionner les fonctionnalités en fonction de cette analyse?

— Aboelnour
source

6

Je recommande de consulter «7.10.2 La mauvaise et la bonne façon de procéder à la validation croisée» dans http://statweb.stanford.edu/~tibs/ElemStatLearn/printings/ESLII_print10.pdf .

Les auteurs donnent un exemple dans lequel quelqu'un fait ce qui suit:

Filtrer les prédicteurs: trouver un sous-ensemble de «bons» prédicteurs qui présentent une corrélation assez forte (univariée) avec les étiquettes de classe
En utilisant uniquement ce sous-ensemble de prédicteurs, créez un classifieur multivarié.
Utiliser la validation croisée pour estimer les paramètres de réglage inconnus et pour estimer l'erreur de prédiction du modèle final

Cela ressemble beaucoup à la réalisation de l'EDA sur toutes les données (c'est-à-dire la formation plus le test) et à l'utilisation de l'EDA pour sélectionner de «bons» prédicteurs.

Les auteurs expliquent pourquoi cela pose problème: le taux d'erreur de validation croisée sera artificiellement bas, ce qui pourrait vous induire en erreur en vous faisant croire que vous avez trouvé un bon modèle.

— Adrian
source

1

Vous souhaitez donc identifier des variables indépendantes qui ont un effet sur votre variable dépendante?

Ensuite, vos deux approches ne sont en fait pas vraiment recommandables.

Après avoir défini votre question de recherche, vous devez développer votre théorie. C'est-à-dire qu'en utilisant la littérature, vous devez identifier les variables qui devraient avoir un effet (vous devriez pouvoir expliquer la raison).

— Peter Clark
source

6

Bien que ce point de vue semble fondamentalement d'accord avec le concept classique des tests statistiques (et en tant que tel, cela me fait mal d'être en désaccord), il existe de nombreux problèmes modernes pour lesquels cela n'est tout simplement pas possible. Par exemple, supposons que vous vouliez voir si l'un des 20 000 gènes codant pour des protéines est associé à une nouvelle maladie héréditaire. Il n'y a aucun fond qui pourrait vous préparer, aucun moyen de "proposer une théorie" et un EDA est le seul moyen de commencer. Et si vous avez suffisamment de données pour une EDA et une analyse de confirmation, vous pouvez réellement vous rendre quelque part.

— Cliff AB

3

"vous devez développer votre théorie" - c'est une bonne idée, mais pas toujours possible, surtout dans l'industrie. Parfois, vous allez de l'avant avec des prévisions sans développer de théories

— Aksakal

1

L'application de l'EDA sur les données de test est incorrecte.

La formation est le processus consistant à rechercher les bonnes réponses pour créer le meilleur modèle. Ce processus ne se limite pas à l'exécution de code sur les données de formation. L'utilisation des informations de l'EDA pour décider du modèle à utiliser, pour modifier les paramètres, etc. fait partie du processus de formation et ne devrait donc pas avoir accès aux données de test. Pour être fidèle à vous-même, utilisez les données de test uniquement pour vérifier les performances de votre modèle.

De plus, si vous réalisez que le modèle ne fonctionne pas bien pendant les tests et que vous revenez ensuite à l'ajustement de votre modèle, ce n'est pas bon non plus. Au lieu de cela, divisez vos données d'entraînement en deux. Utilisez-en un pour la formation et un autre pour tester et modifier vos modèles. Voir Quelle est la différence entre l'ensemble de test et l'ensemble de validation?

— tilish
source

0

Après le paragraphe de cette réponse . Hastie explique plus loin p.245 :

"Voici la manière correcte d'effectuer la validation croisée dans cet exemple:

Divisez les échantillons en K plis de validation croisée (groupes) au hasard.

Pour chaque pli k = 1, 2,. . . , K
(a) Trouver un sous-ensemble de «bons» prédicteurs qui montrent une corrélation assez forte (univariée) avec les étiquettes de classe, en utilisant tous les échantillons sauf ceux du pli k.
(b) En utilisant uniquement ce sous-ensemble de prédicteurs, construisez un classifieur multivarié, en utilisant tous les échantillons sauf ceux du pli k.
(c) Utiliser le classificateur pour prédire les étiquettes de classe pour les échantillons du pli k. "

— user2672299
source

-3

Vous effectuez l'EDA sur l'ensemble des données. Par exemple, si vous utilisez la validation croisée avec abandon , comment feriez-vous l'EDA uniquement sur un ensemble de données de formation ? Dans ce cas, chaque observation s'entraîne et se maintient au moins une fois.

Donc, non, vous formez votre compréhension des données sur l'ensemble de l'échantillon. Si vous êtes dans la configuration industrielle, c'est encore plus évident. Vous êtes censé montrer les tendances et la description générale des données aux parties prenantes de l'entreprise, et vous le faites sur l'ensemble de l'échantillon.

— Aksakal
source