Je travaille avec des données déséquilibrées, où il y a environ 40 cas class = 0 pour chaque classe = 1. Je peux raisonnablement faire la distinction entre les classes en utilisant des fonctionnalités individuelles, et la formation d'un classificateur naïf Bayes et SVM sur 6 fonctionnalités et des données équilibrées a donné une meilleure discrimination (courbes ROC ci-dessous).
C'est bien, et je pensais que j'allais bien. Cependant, la convention pour ce problème particulier est de prévoir les coups à un niveau de précision, généralement entre 50% et 90%. par exemple "Nous avons détecté un certain nombre de hits avec une précision de 90%." Lorsque j'ai essayé cela, la précision maximale que je pouvais obtenir des classificateurs était d'environ 25% (ligne noire, courbe PR ci-dessous).
Je pourrais comprendre cela comme un problème de déséquilibre de classe, car les courbes PR sont sensibles au déséquilibre et les courbes ROC ne le sont pas. Cependant, le déséquilibre ne semble pas affecter les fonctionnalités individuelles: je peux obtenir une précision assez élevée en utilisant les fonctionnalités individuelles (bleu et cyan).
Je ne comprends pas ce qui se passe. Je pourrais le comprendre si tout fonctionnait mal dans l'espace PR, car, après tout, les données sont très déséquilibrées. Je pourrais également comprendre si les classificateurs semblaient mauvais dans l' espace ROC et PR - peut-être que ce sont juste de mauvais classificateurs. Mais que se passe-t-il pour rendre les classificateurs meilleurs selon le ROC, mais pires selon le Precision-Recall ?
Edit : J'ai remarqué que dans les zones à faible TPR / Rappel (TPR entre 0 et 0,35), les caractéristiques individuelles surpassent constamment les classificateurs dans les courbes ROC et PR. Peut-être que ma confusion est due au fait que la courbe ROC "met l'accent" sur les zones à TPR élevé (où les classificateurs fonctionnent bien) et la courbe PR met l'accent sur le TPR bas (où les classificateurs sont pires).
Edit 2 : La formation sur les données non équilibrées, c'est-à-dire avec le même déséquilibre que les données brutes, a redonné vie à la courbe PR (voir ci-dessous). Je suppose que mon problème était de mal former les classificateurs, mais je ne comprends pas totalement ce qui s'est passé.