Quelqu'un a-t-il une idée pourquoi j'obtiens beaucoup plus de faux positifs que de faux négatifs (le positif est la classe minoritaire)? Merci d'avance pour votre aide!
Parce que positif est la classe minoritaire. Il existe de nombreux exemples négatifs qui pourraient devenir de faux positifs. À l'inverse, il y a moins d'exemples positifs qui pourraient devenir de faux négatifs.
Rappelons que Recall = Sensitivity=TP(TP+FN)
La sensibilité (True Positive Rate) est liée au taux de faux positifs (spécificité 1) tel que visualisé par une courbe ROC. À un extrême, vous qualifiez chaque exemple de positif et avez une sensibilité de 100% avec 100% de FPR. À un autre, vous n'appelez aucun exemple positif et avez une sensibilité de 0% avec un FPR de 0%. Lorsque la classe positive est minoritaire, même un FPR relativement petit (que vous pourriez avoir parce que vous avez un rappel élevé = sensibilité = TPR) finira par provoquer un nombre élevé de PF (car il y a tellement d'exemples négatifs).
Depuis
Précision=TP(TP+FP)
Même à un FPR relativement faible, le FP submergera le TP si le nombre d'exemples négatifs est beaucoup plus grand.
Alternativement,
Classificateur positif:C+
Exemple positif:O+
Précision =P(O+|C+)=P(C+|O+)P(O+)P(C+)
P (O +) est faible lorsque la classe positive est petite.
Quelqu'un parmi vous a-t-il des conseils sur ce que je pourrais faire pour améliorer ma précision sans nuire à mon rappel?
Comme mentionné par @rinspy, GBC fonctionne bien d'après mon expérience. Il sera cependant plus lent que SVC avec un noyau linéaire, mais vous pouvez créer des arbres très peu profonds pour l'accélérer. En outre, plus de fonctionnalités ou plus d'observations peuvent aider (par exemple, il peut y avoir une fonctionnalité actuellement non analysée qui est toujours définie sur une valeur dans l'ensemble de votre FP actuel).
Il peut également être utile de tracer des courbes ROC et des courbes d'étalonnage. Il se peut que même si le classifieur a une faible précision, cela pourrait conduire à une estimation de probabilité très utile. Par exemple, le simple fait de savoir qu'un disque dur peut avoir une probabilité de défaillance 500 fois plus élevée, même si la probabilité absolue est assez faible, peut être une information importante.
En outre, une faible précision signifie essentiellement que le classificateur renvoie un grand nombre de faux positifs. Cependant, cela pourrait ne pas être si mauvais si un faux positif est bon marché.