J'ai trouvé que lui et Garcia (2009) sont une revue utile de l'apprentissage dans les problèmes de classe déséquilibrés. Voici quelques éléments certainement non exhaustifs à considérer:
Approches basées sur les données:
On peut sous-échantillonner la classe majoritaire ou suréchantillonner la classe minoritaire. (Breiman a souligné que cela équivaut formellement à attribuer des coûts de classification erronée non uniformes.) Cela peut poser des problèmes: le sous-échantillonnage peut faire en sorte que l'apprenant rate certains aspects de la classe majoritaire; le suréchantillonnage augmente le risque de sur-ajustement.
Il existe des méthodes de «sous-échantillonnage éclairé» qui réduisent ces problèmes. L'un d'eux est EasyEnsemble , qui échantillonne indépendamment plusieurs sous-ensembles de la classe majoritaire et crée plusieurs classificateurs en combinant chaque sous-ensemble avec toutes les données de la classe minoritaire.
SMOTE (Synthetic Minority Oversampling Technique) ou SMOTEBoost (combinant SMOTE avec boosting) créent des instances synthétiques de la classe minoritaire en faisant des voisins les plus proches dans l'espace des fonctionnalités. SMOTE est implémenté dans R dans le package DMwR (qui accompagne le livre de Luis Torgo «Data Mining with R, learning with case studies» CRC Press 2016 ).
Approches d'ajustement des modèles
Appliquez des pondérations spécifiques à la classe dans votre fonction de perte (pondérations plus importantes pour les cas minoritaires).
Pour les approches basées sur les arbres, vous pouvez utiliser la distance de Hellinger comme fonction d'impureté des nœuds, comme le préconisent Cieslak et al. "Les arbres de décision de distance Hellinger sont robustes et insensibles à l'inclinaison" ( code Weka ici .)
Utilisez un classificateur à une classe , en apprenant (selon le modèle) une densité de probabilité ou une limite pour une classe et en traitant l'autre classe comme des valeurs aberrantes.
Bien sûr, n'utilisez pas la précision comme métrique pour la construction de modèles. Le kappa de Cohen est une alternative raisonnable.
Approches d'évaluation des modèles
Si votre modèle renvoie des probabilités prédites ou d'autres scores, choisissez un seuil de décision qui effectue un compromis approprié en matière d'erreurs (en utilisant un ensemble de données indépendant de la formation et des tests). Dans R, le package OptimalCutpoints implémente un certain nombre d'algorithmes, y compris ceux sensibles au coût, pour décider d'une coupure.