Nous avons des données avec un résultat binaire et quelques covariables. J'ai utilisé la régression logistique pour modéliser les données. Juste une simple analyse, rien d'extraordinaire. La sortie finale est supposée être une courbe dose-réponse où nous montrons comment la probabilité change pour une covariable spécifique. Quelque chose comme ça:
Nous avons reçu des critiques d'un examinateur interne (pas un simple statisticien) pour avoir choisi la régression logistique. La régression logistique suppose (ou définit) que le point d'inflexion de la courbe en S sur l'échelle de probabilité est à la probabilité 0,5. Il a fait valoir qu'il n'y aurait aucune raison de supposer que le point d'inflexion était effectivement à la probabilité 0,5 et que nous devrions choisir un modèle de régression différent qui permet au point d'inflexion de varier de telle sorte que la position réelle soit déterminée par les données.
Au début, j'ai été pris au dépourvu par son argument, car je n'ai jamais pensé à ce point. Je n'ai eu aucun argument pour expliquer pourquoi il serait justifié de supposer que le point d'inflexion est à 0,5. Après avoir fait quelques recherches, je n'ai toujours pas de réponse à cette question.
Je suis tombé sur une régression logistique à 5 paramètres, pour laquelle le point d'inflexion est un paramètre supplémentaire, mais il semble que ce modèle de régression soit généralement utilisé lors de la production de courbes dose-réponse avec un résultat continu. Je ne sais pas si et comment il peut être étendu aux variables de réponse binaires.
Je suppose que ma question principale est pourquoi ou quand il est OK de supposer que le point d'inflexion pour une régression logistique est à 0,5? Est-ce même important? Je n'ai jamais vu personne adapter un modèle de régression logistique et discuter explicitement de la question du point d'inflexion. Existe-t-il des alternatives pour créer une courbe dose-réponse où le point d'inflexion n'est pas nécessairement à 0,5?
Juste pour être complet, le code R pour générer l'image ci-dessus:
dat <- read.csv("http://www.ats.ucla.edu/stat/data/binary.csv")
dat$rank <- factor(dat$rank)
logit <- glm(admit ~ gre + gpa + rank, family = binomial(link = "logit"), data = dat)
newdata <- data.frame(gre = seq(-2000,8000,1), gpa = 2.5, rank = factor(1,c(1,2,3,4)))
pp <- predict(logit, newdata, type = "response", se.fit = TRUE)
plot(newdata$gre, pp$fit, type="l", col="black", lwd=2,ylab="Probability", xlab="Dose")
Modifier 1:
Juste pour ajouter à ce que Scortchi a dit dans l'un des commentaires: Le critique a en effet soutenu que, biologiquement, il pourrait être plus probable que le changement de courbure se produise avant 0,5. Par conséquent, sa résistance contre l'hypothèse que le point d'inflexion est à 0,5.
Modifier 2:
En réaction au commentaire de Frank Harrell:
À titre d'exemple, j'ai modifié mon modèle ci-dessus pour inclure un terme quadratique et un terme cubique dans gre
(qui est la "dose" dans cet exemple).
logit <- glm(admit ~ gre+I(gre^2)+I(gre^3)+ gpa + rank, family = binomial(link = "logit"), data = dat)
newdata <- data.frame(admit=1, gre = seq(-2000,8000,1), gpa = 2.5, rank = factor(1,c(1,2,3,4)))
pp <- predict(logit, newdata, type = "response", se.fit = TRUE)
plot(newdata$gre, pp$fit, type="l", col="black", lwd=2,xlim=c(-2000,4000),ylab="Probability", xlab="Dose")
Malgré le fait qu'il n'est probablement pas significatif d'ajouter un terme quadratique et un gre
terme cubique dans ce cas, nous voyons que la forme de la courbe dose-réponse a changé. En effet, nous avons maintenant deux points d'inflexion à environ 0,25 et près de 0,7.