J'ai une tâche de classification où j'ai un certain nombre de prédicteurs (dont l'un est le plus informatif), et j'utilise le modèle MARS pour construire mon classificateur (je suis intéressé par n'importe quel modèle simple, et utiliser glms à des fins d'illustration serait bien aussi). Maintenant, j'ai un énorme déséquilibre de classe dans les données de formation (environ 2700 échantillons négatifs pour chaque échantillon positif). Semblable aux tâches de récupération d'informations, je suis plus préoccupé par la prévision des échantillons de test positifs de premier rang. Pour cette raison, les performances sur les courbes de rappel de précision sont importantes pour moi.
Tout d'abord, j'ai simplement formé le modèle sur mes données de formation en maintenant le déséquilibre de classe tel qu'il est. Je visualise mon modèle formé en rouge et l'entrée la plus importante en bleu.
Formation sur les données déséquilibrées, évaluation sur les données déséquilibrées :
Pensant que le déséquilibre de classe déstabilise le modèle, étant donné que l'apprentissage des échantillons positifs de premier rang est une infime partie de l'ensemble de données, j'ai suréchantillonné les points d'entraînement positifs pour obtenir un ensemble de données d'entraînement équilibré. Lorsque je trace la performance sur l' ensemble d'entraînement équilibré , j'obtiens de bonnes performances. Dans les courbes PR et ROC, mon modèle entraîné fait mieux que les entrées.
Formation sur les données équilibrées (suréchantillonnées), évaluation également sur les données équilibrées (suréchantillonnées):
Cependant, si j'utilise ce modèle entraîné sur les données équilibrées, pour prédire sur l'ensemble d'entraînement original et déséquilibré, j'obtiens toujours de mauvaises performances sur la courbe PR.
Formation sur les données équilibrées (suréchantillonnées), évaluation sur les données originales non équilibrées:
Mes questions sont donc:
- Est-ce la raison pour laquelle la visualisation de la courbe PR montre une performance inférieure de mon modèle entraîné (rouge), tandis que la courbe ROC montre des améliorations en raison du déséquilibre de classe?
- Les approches de rééchantillonnage / suréchantillonnage / sous-échantillonnage peuvent-elles résoudre ce problème pour forcer la formation à se concentrer sur la région de haute précision / faible rappel?
- Existe-t-il un autre moyen de concentrer la formation sur la région de haute précision / faible rappel?