Utilisation d'une règle de notation appropriée pour déterminer l'appartenance à une classe à partir de la régression logistique


8

J'utilise la régression logistique pour prédire la probabilité qu'un événement se produise. En fin de compte, ces probabilités sont placées dans un environnement de production, où nous nous concentrons autant que possible sur nos prévisions de «oui». Il est donc utile pour nous d'avoir une idée de ce que les "hits" ou "non-hits" définitifs pourraient être a priori (avant la mise en production), en plus des autres mesures que nous utilisons pour éclairer cette détermination.

Ma question est, quelle serait la bonne façon de prédire une classe définitive (1,0) basée sur la probabilité prédite? Plus précisément, j'utilise le glmnetpackage de R pour ma modélisation. Ce package choisit arbitrairement une probabilité de 0,5 comme seuil pour un oui ou un non. Je crois que je dois prendre les résultats d'une règle de notation appropriée, basée sur les probabilités prédites, pour extrapoler à une classe définitive. Un exemple de mon processus de modélisation est ci-dessous:

mods <- c('glmnet', 'scoring')
lapply(mods, require, character.only = T)

# run cross-validated LASSO regression
fit <- cv.glmnet(x = df1[, c(2:100)]), y = df1[, 1], family = 'binomial', 
type.measure = 'auc')

# generate predicted probabilities across new data
df2$prob <- predict(fit, type="response", newx = df2[, c(2:100)], s = 'lambda.min')

# calculate Brier score for each record
df2$propscore <- brierscore(df2[,1] ~ df2$prob, data = df2)

J'ai donc maintenant une série de scores Brier pour chaque prédiction, mais comment puis-je utiliser le score Brier pour pondérer de manière appropriée chaque probabilité d'être oui ou non?

Je comprends qu'il existe également d'autres méthodes pour prendre cette décision, comme Random Forest.

Réponses:


6

Ce que vous devez faire est de "mettre le modèle en production", c'est-à-dire, comme vous le dites, pour prédire réellement quels cas seront "oui", ce dont vous avez besoin est une fonction de perte . Vous avez deux erreurs possibles, dire «oui» quand non, dire «non» quand oui. Ces erreurs ont-elles des conséquences économiques, des coûts associés? Ces coûts dépendent-ils également d'autres éléments, comme une certaine valeur covariable spécifique? Ensuite, vous intégrez ces informations dans une fonction de coût et vous pouvez déterminer les seuils en minimisant le coût prévu. Telle est la solution de principe.


1
Oui, c'est en fait ce dont nous avons besoin, par exemple le coût de l'examen par unité. Je ferai mes devoirs sur la création d'une fonction de perte appropriée, mais dois-je inclure une mesure comme la règle de notation dans cela?
NiuBiBang

Une règle de correction appropriée et une fonction de perte sont deux concepts distincts! La fonction de perte ne devrait mesurer que les conséquences économiques, et une règle de notation appropriée n'a rien à voir avec cela.
kjetil b halvorsen
En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.