PRÉFACE: Je ne me soucie pas des avantages d'utiliser ou non un seuil, ni de la façon de choisir un seuil. Ma question est purement mathématique et due à la curiosité.
La régression logistique modélise la probabilité conditionnelle postérieure de la classe A par rapport à la classe B et elle s'adapte à un hyperplan où les probabilités conditionnelles postérieures sont égales. Donc, en théorie, j'ai compris qu'un point de classification de 0,5 minimisera les erreurs totales indépendamment de l'équilibre défini, car il modélise la probabilité postérieure (en supposant que vous rencontrez systématiquement le même rapport de classe).
Dans mon exemple réel, j'obtiens une très mauvaise précision en utilisant P> 0,5 comme seuil de classification (précision d'environ 51%). Cependant, quand j'ai regardé l'AUC, elle est supérieure à 0,99. J'ai donc examiné différentes valeurs de coupure et constaté que P> 0,6 me donnait une précision de 98% (90% pour la petite classe et 99% pour la plus grande classe) - seulement 2% des cas mal classés.
Les classes sont fortement déséquilibrées (1: 9) et c'est un problème de grande dimension. Cependant, j'ai alloué les classes de manière égale à chaque ensemble de validation croisée afin qu'il n'y ait pas de différence entre l'équilibre des classes entre l'ajustement du modèle et la prédiction. J'ai également essayé d'utiliser les mêmes données de l'ajustement du modèle et des prévisions et le même problème s'est produit.
Je m'intéresse à la raison pour laquelle 0,5 ne minimiserait pas les erreurs, je pensais que ce serait par conception si le modèle est ajusté en minimisant la perte d'entropie croisée.
Quelqu'un at-il des commentaires sur la raison pour laquelle cela se produit? Est-ce dû à l'ajout d'une pénalisation, quelqu'un peut-il expliquer ce qui se passe si c'est le cas?