J'ai une formation en informatique mais j'essaie de m'enseigner la science des données en résolvant des problèmes sur Internet.
Je travaille sur ce problème depuis deux semaines (environ 900 lignes et 10 fonctionnalités). J'utilisais initialement la régression logistique, mais maintenant je suis passé aux forêts aléatoires. Lorsque j'exécute mon modèle de forêt aléatoire sur mes données d'entraînement, j'obtiens des valeurs très élevées pour auc (> 99%). Cependant, lorsque j'utilise le même modèle sur les données de test, les résultats ne sont pas très bons (précision d'environ 77%). Cela me porte à croire que je corrige trop les données de formation.
Quelles sont les meilleures pratiques en matière de prévention de l'aménagement excessif dans des forêts aléatoires?
J'utilise r et rstudio comme environnement de développement. J'utilise le randomForest
package et ai accepté les valeurs par défaut pour tous les paramètres