J'ai 100 000 observations (9 variables indicatrices factices) avec 1000 positifs. La régression logistique devrait bien fonctionner dans ce cas, mais la probabilité de coupure me laisse perplexe.
Dans la littérature courante, nous choisissons un seuil de 50% pour prédire les 1 et les 0. Je ne peux pas le faire car mon modèle donne une valeur maximale de ~ 1%. Un seuil peut donc être à 0,007 ou quelque part autour de lui.
Je comprends les ROC
courbes et comment l'aire sous la courbe peut m'aider à choisir entre deux modèles LR pour le même ensemble de données. Cependant, ROC ne m'aide pas à choisir une probabilité de coupure optimale qui peut être utilisée pour tester le modèle sur des données hors échantillon.
Dois-je simplement utiliser une valeur de coupure qui minimise le misclassification rate
? ( http://www2.sas.com/proceedings/sugi31/210-31.pdf )
Ajouté -> Pour un taux d'événements aussi bas, mes taux de mauvaise classification sont affectés par un grand nombre de faux positifs. Bien que le taux dans l'ensemble semble bon, car la taille totale de l'univers est également grande, mais mon modèle ne devrait pas avoir autant de faux positifs (car il s'agit d'un modèle de retour sur investissement). 5/10 coeff sont significatifs.