Laquelle des options ci-dessous est la bonne lors de la création d'un modèle prédictif?
Option 1:
Éliminez d'abord les prédicteurs les plus manifestement mauvais et prétraitez les autres si nécessaire, puis entraînez divers modèles avec validation croisée, choisissez les meilleurs, identifiez les meilleurs prédicteurs que chacun a utilisés, puis reconvertissez ces modèles avec ces prédicteurs uniquement et évaluez la précision à nouveau avec validation croisée, puis choisissez le meilleur et entraînez-le sur l'ensemble complet d'entraînement en utilisant ses prédicteurs clés, puis utilisez-le pour prédire l'ensemble de test.
Option 2:
Éliminez d'abord les prédicteurs les plus manifestement mauvais, puis prétraitez les autres si nécessaire, puis utilisez une technique de sélection de caractéristiques comme la sélection récursive de caractéristiques (par exemple RFE avec rf) avec validation croisée, par exemple pour identifier le nombre idéal de prédicteurs clés et ce que ces prédicteurs sont, puis former différents types de modèles avec validation croisée et voir lequel donne la meilleure précision avec ces prédicteurs supérieurs identifiés plus tôt. Ensuite, entraînez à nouveau le meilleur de ces modèles avec ces prédicteurs sur l'ensemble d'entraînement complet, puis utilisez-le pour prédire l'ensemble de test.