Pourquoi le seuil P> 0,5 n'est pas «optimal» pour la régression logistique?

13

PRÉFACE: Je ne me soucie pas des avantages d'utiliser ou non un seuil, ni de la façon de choisir un seuil. Ma question est purement mathématique et due à la curiosité.

La régression logistique modélise la probabilité conditionnelle postérieure de la classe A par rapport à la classe B et elle s'adapte à un hyperplan où les probabilités conditionnelles postérieures sont égales. Donc, en théorie, j'ai compris qu'un point de classification de 0,5 minimisera les erreurs totales indépendamment de l'équilibre défini, car il modélise la probabilité postérieure (en supposant que vous rencontrez systématiquement le même rapport de classe).

Dans mon exemple réel, j'obtiens une très mauvaise précision en utilisant P> 0,5 comme seuil de classification (précision d'environ 51%). Cependant, quand j'ai regardé l'AUC, elle est supérieure à 0,99. J'ai donc examiné différentes valeurs de coupure et constaté que P> 0,6 me donnait une précision de 98% (90% pour la petite classe et 99% pour la plus grande classe) - seulement 2% des cas mal classés.

Les classes sont fortement déséquilibrées (1: 9) et c'est un problème de grande dimension. Cependant, j'ai alloué les classes de manière égale à chaque ensemble de validation croisée afin qu'il n'y ait pas de différence entre l'équilibre des classes entre l'ajustement du modèle et la prédiction. J'ai également essayé d'utiliser les mêmes données de l'ajustement du modèle et des prévisions et le même problème s'est produit.

Je m'intéresse à la raison pour laquelle 0,5 ne minimiserait pas les erreurs, je pensais que ce serait par conception si le modèle est ajusté en minimisant la perte d'entropie croisée.

Quelqu'un at-il des commentaires sur la raison pour laquelle cela se produit? Est-ce dû à l'ajout d'une pénalisation, quelqu'un peut-il expliquer ce qui se passe si c'est le cas?

logistic predictive-models unbalanced-classes

— felix000
source

2

Voir stats.stackexchange.com/search?q=user%3A4253+cutoff

— Scortchi - Réintégrer Monica

Scortchi, pourriez-vous être un peu plus précis sur la question des seuils qui vous semble pertinente? Je n'ai pas vu la question ou la réponse pertinente avant de poster, ni maintenant.

— felix000

Désolé, je ne voulais pas dire qu'ils ont tous répondu à votre q., Mais je pensais qu'ils étaient tous pertinents pour suggérer de ne pas utiliser la précision à aucun seuil comme mesure de performance, ou du moins pas un seuil arbitraire non calculé à partir d'un utilitaire une fonction.

— Scortchi - Réintégrer Monica

16

Il n'est pas nécessaire d'obtenir des catégories prédites à partir d'un modèle de régression logistique. Il peut être bon de rester avec des probabilités prédites. Si vous obtenez des catégories prédites, vous ne devez pas utiliser ces informations pour faire autre chose que de dire «cette observation est mieux classée dans cette catégorie». Par exemple, vous ne devez pas utiliser «précision» / pourcentage correct pour sélectionner un modèle.

Cela dit, sera rarement le seuil optimal pour classer les observations. Pour avoir une idée intuitive de la façon dont cela pourrait se produire, imaginez que vous aviez avec observations dans la catégorie positive. Un modèle simple à interception seule pourrait facilement avoir faux négatifs lorsque vous utilisez comme seuil. D'un autre côté, si vous venez de qualifier tout de positif, vous auriez faux positif, mais correct. $.50$ $N=100$ $99$ $49$ $.50$ $1$ $99\%$

Plus généralement, la régression logistique cherche à ajuster la vraie probabilité positive des observations en fonction des variables explicatives. Il n'essaie pas de maximiser la précision en centrant les probabilités prédites autour de la coupure de . Si votre échantillon n'est pas positif à , il n'y a tout simplement aucune raison que maximise le pourcentage correct. $.50$ $50\%$ $.50$

— gung - Réintégrer Monica
source

Bonjour, merci pour votre explication, mais je n'ai pas l'exemple avec le modèle d'interception uniquement. Avec le modèle d'interception uniquement, vous aurez 0,99 pour tous les exemples et donc vous aurez la précision de 99% en prenant n'importe quelle valeur de seuil.

— abcdaire

0

Je pense que cela pourrait être dû à plusieurs raisons:

Il peut y avoir une non-linéarité dans vos données, donc l'ajout linéaire des poids peut ne pas toujours entraîner des probabilités correctes
Les variables sont un mélange de bons prédicteurs et de prédicteurs faibles, de sorte qu'une population notée d'environ 0,5 est due à des prédicteurs faibles ou à un effet moindre de prédicteurs forts. Au fur et à mesure que vous allez au-dessus, vous obtenez des gens pour qui l'effet des prédicteurs est fort

Ainsi, vous devrez peut-être parfois jouer avec la valeur de coupure, pour maximiser la sortie souhaitée, comme la précision, l'exactitude, etc. Parce que la plupart du temps, les populations ne sont pas très homogènes.

— user124690
source