Je suis novice dans l'exploration de données et j'essaie de former un arbre de décision par rapport à un ensemble de données extrêmement déséquilibré. Cependant, j'ai des problèmes avec une faible précision prédictive.
Les données comprennent les étudiants qui étudient les cours, et la variable de classe est le statut du cours qui a deux valeurs - Retiré ou Actuel.
- Âge
- Ethnicité
- Le genre
- Cours
... - Statut du cours
Dans le jeu de données, il y a beaucoup plus d'instances qui sont actuelles que retirées. Les instances retirées ne représentent que 2% du nombre total d'instances.
Je veux être capable de construire un modèle capable de prédire la probabilité qu'une personne se désiste à l'avenir. Cependant, lors du test du modèle avec les données d'entraînement, la précision du modèle est terrible.
J'ai eu des problèmes similaires avec les arbres de décision où les données sont dominées par une ou deux classes.
Quelle approche puis-je utiliser pour résoudre ce problème et créer un classificateur plus précis?