Comment choisir la probabilité de coupure pour un événement rare Régression logistique

J'ai 100 000 observations (9 variables indicatrices factices) avec 1000 positifs. La régression logistique devrait bien fonctionner dans ce cas, mais la probabilité de coupure me laisse perplexe.

Dans la littérature courante, nous choisissons un seuil de 50% pour prédire les 1 et les 0. Je ne peux pas le faire car mon modèle donne une valeur maximale de ~ 1%. Un seuil peut donc être à 0,007 ou quelque part autour de lui.

Je comprends les ROCcourbes et comment l'aire sous la courbe peut m'aider à choisir entre deux modèles LR pour le même ensemble de données. Cependant, ROC ne m'aide pas à choisir une probabilité de coupure optimale qui peut être utilisée pour tester le modèle sur des données hors échantillon.

Dois-je simplement utiliser une valeur de coupure qui minimise le misclassification rate? ( http://www2.sas.com/proceedings/sugi31/210-31.pdf )

Ajouté -> Pour un taux d'événements aussi bas, mes taux de mauvaise classification sont affectés par un grand nombre de faux positifs. Bien que le taux dans l'ensemble semble bon, car la taille totale de l'univers est également grande, mais mon modèle ne devrait pas avoir autant de faux positifs (car il s'agit d'un modèle de retour sur investissement). 5/10 coeff sont significatifs.

— Maddy
source

C'est le coût relatif des deux types de classification erronée ainsi que leurs probabilités qui devraient déterminer la limite. Si vous souhaitez simplement valider le modèle de probabilité, calculez son score AUC ou Brier lorsqu'il est appliqué à l'ensemble de test.

— Scortchi - Réintégrer Monica

Cela pourrait être une bonne réponse: stats.stackexchange.com/a/25398/5597

— Tae-Sung Shin

Réponses également pertinentes ici et ici .

— Scortchi - Réintégrer Monica

@ Tae-SungShin Merci pour le lien. C'est utile. Je suppose qu'il n'y a pas de réponse définitive à mon Q. Mon modèle souffre d'un nombre élevé de faux positifs.

— Maddy

@Scortchi Merci. L'utilisation de l'ASC aurait pu être utile si je comparais 2 modèles de régression logistique différents (avec des prédicteurs supplémentaires) mais je ne sais pas comment cela m'aide dans mon cas. Cela me donne une probabilité de réussite totale de mon modèle, mais cela ne m'aide pas à choisir une probabilité de coupure.

— Maddy

Je ne suis pas d'accord pour dire qu'un seuil de 50% est soit intrinsèquement valide, soit étayé par la littérature. Le seul cas où une telle coupure pourrait être justifiée est dans une conception cas-témoins où la prévalence du résultat est exactement de 50%, mais même dans ce cas, le choix serait soumis à quelques conditions. Je pense que la principale justification du choix de la coupure est la caractéristique de fonctionnement souhaitée du test de diagnostic.

Un seuil peut être choisi pour atteindre la sensibilité ou la spécificité souhaitée. Pour un exemple de cela, consultez la documentation sur les dispositifs médicaux. La sensibilité est souvent fixée à un montant fixe: les exemples incluent 80%, 90%, 95%, 99%, 99,9% ou 99,99%. Le compromis sensibilité / spécificité doit être comparé aux inconvénients des erreurs de type I et de type II. Souvent, comme pour les tests statistiques, le préjudice d'une erreur de type I est plus important et nous contrôlons donc ce risque. Pourtant, ces méfaits sont rarement quantifiables. Pour cette raison, j'ai des objections majeures aux méthodes de sélection de coupure qui reposent sur une seule mesure de précision prédictive: elles véhiculent, à tort, que les dommages peuvent et ont été quantifiés.

Votre problème de trop de faux positifs est un exemple du contraire: une erreur de type II peut être plus nocive. Ensuite, vous pouvez définir le seuil pour atteindre la spécificité souhaitée et signaler la sensibilité atteinte à ce seuil.

Si vous trouvez que les deux sont trop faibles pour être acceptables pour la pratique, votre modèle de risque ne fonctionne pas et il doit être rejeté.

La sensibilité et la spécificité sont facilement calculées ou recherchées à partir d'un tableau sur une plage entière de valeurs de coupure possibles. Le problème avec le ROC est qu'il omet les informations de coupure spécifiques du graphique. Le ROC n'est donc pas pertinent pour choisir une valeur seuil.

— AdamO
source