Comprendre les prédictions de la régression logistique


13

Mes prédictions provenant d'un modèle de régression logistique (glm dans R) ne sont pas limitées entre 0 et 1 comme je m'y attendais. Ma compréhension de la régression logistique est que vos paramètres d'entrée et de modèle sont combinés linéairement et la réponse est transformée en probabilité à l'aide de la fonction de lien logit. Étant donné que la fonction logit est limitée entre 0 et 1, je m'attendais à ce que mes prédictions soient limitées entre 0 et 1.

Cependant, ce n'est pas ce que je vois lorsque j'implémente une régression logistique dans R:

data(iris)
iris.sub <- subset(iris, Species%in%c("versicolor","virginica"))
model    <- glm(Species ~ Sepal.Length + Sepal.Width, data = iris.sub, 
                family = binomial(link = "logit"))
hist(predict(model))

entrez la description de l'image ici

Si quoi que ce soit, la sortie de prédire (modèle) me semble normale. Quelqu'un peut-il m'expliquer pourquoi les valeurs que j'obtiens ne sont pas des probabilités?


3
La réponse de Corone ci-dessous couvre très bien les détails. La figure originale que vous avez ci-dessus présente les valeurs de log-odds sur l'axe des x, qui peuvent être mathématiquement transformées en probabilités (c'est-à-dire selon la réponse de Corone, en passant par la fonction de lien.)
James Stanley

Réponses:


16

La predict.glmméthode par défaut renvoie les prédicteurs à l'échelle du prédicteur linéaire. C'est-à-dire qu'ils n'ont pas encore utilisé la fonction de lien.

Essayer

hist(predict(model, type = "response"))

au lieu

entrez la description de l'image ici


4
Vous avez fait un excellent travail en maîtrisant nos capacités de balisage et d'illustration en peu de temps: cette réponse en est un bel exemple. Bien joué!
whuber
En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.