Quelle est la meilleure façon de catégoriser les approches qui ont été développées pour traiter le problème de classe de déséquilibre?
Cet article les classe en:
- Prétraitement: comprend le suréchantillonnage, le sous-échantillonnage et les méthodes hybrides,
- Apprentissage sensible aux coûts: comprend les méthodes directes et le méta-apprentissage que celui-ci divise en outre en seuillage et échantillonnage,
- Techniques d'ensemble: comprend les ensembles sensibles au coût et le prétraitement des données en conjonction avec l'apprentissage d'ensemble.
Le deuxième classement:
- Pré-traitement des données: inclut le changement de distribution et la pondération de l'espace de données. L'apprentissage en classe est considéré comme un changement de distribution.
- Méthodes d'apprentissage spécialisées
- Post-traitement de prédiction: comprend une méthode de seuil et un post-traitement sensible aux coûts
- Méthodes hybrides:
Le troisième article :
- Méthodes au niveau des données
- Méthodes au niveau de l'algorithme
- Méthodes hybrides
La dernière classification considère également l'ajustement de la production comme une approche indépendante.
Merci d'avance.