Votre question peut provenir du fait que vous traitez avec les rapports de cotes et les probabilités, ce qui prête à confusion au début. Puisque le modèle logistique est une transformation non linéaire de calculant les intervalles de confiance ne sont pas aussi simples.βTx
Contexte
Rappelons que pour le modèle de régression logistique
Probabilité de : p = e α + β 1 x 1 + β 2 x 2(Y=1)p=eα+β1x1+β2x21+eα+β1x1+β2x2
Chances de : ( p(Y=1)(p1−p)=eα+β1x1+β2x2
Log Odds of : log ( p(Y=1)log(p1−p)=α+β1x1+β2x2
Considérons le cas où vous avez une augmentation d'une unité dans la variable , c'est-à-dire x 1 + 1 , alors les nouvelles cotes sontx1x1+1
Odds(Y=1)=eα+β1(x1+1)+β2x2=eα+β1x1+β1+β2x2
- Les rapports de cotes (OR) sont donc
Odds(x1+1)Odds(x1)=eα+β1(x1+1)+β2x2eα+β1x1+β2x2=eβ1
Interprétation des coefficients
Comment interpréteriez-vous la valeur du coefficient βj ? En supposant que tout le reste reste fixe:
- Pour chaque augmentation unitaire de le log-odds ratio augmente de β jxjβj .
- Pour chaque augmentation unitaire de le rapport de cotes augmente de e β jxjeβj .
- Pour chaque augmentation de de k à k + Δ, le rapport de cotes augmente de e β j Δxjkk+ΔeβjΔ
- Si le coefficient est négatif, une augmentation de entraîne une diminution du rapport de cotes.xj
Intervalles de confiance pour un seul paramètre βj
Dois-je simplement utiliser ? Ou dois-je convertir le SE en utilisant une approche décrite ici?1.96∗SE
Étant donné que le paramètre est estimé à l'aide de l'estimation du maximum de vraisemblance, la théorie MLE nous dit qu'il est asymptotiquement normal et que nous pouvons donc utiliser l' intervalle de confiance Wald à grand échantillon pour obtenir l'habituelβj
βj±z∗SE(βj)
Ce qui donne un intervalle de confiance sur le log-odds ratio. L'utilisation de la propriété d'invariance du MLE permet d'exponentier pour obtenir
eβj±z∗SE(βj)
qui est un intervalle de confiance sur le rapport de cotes. Notez que ces intervalles ne concernent qu'un seul paramètre.
Si je veux comprendre l'erreur standard pour les deux variables, comment puis-je considérer cela?
Si vous incluez plusieurs paramètres, vous pouvez utiliser la procédure de Bonferroni, sinon pour tous les paramètres, vous pouvez utiliser l'intervalle de confiance pour les estimations de probabilité
Procédure de Bonferroni pour plusieurs paramètres
g1−α
βg±z(1−α2g)SE(βg)
Intervalles de confiance pour les estimations de probabilité
The logistic model outputs an estimation of the probability of observing a one and we aim to construct a frequentist interval around the true probability p such that Pr(pL≤p≤pU)=.95
One approach called endpoint transformation does the following:
- Compute the upper and lower bounds of the confidence interval for the linear combination xTβ (using the Wald CI)
- Apply a monotonic transformation to the endpoints F(xTβ) to obtain the probabilities.
Since Pr(xTβ)=F(xTβ) is a monotonic transformation of xTβ
[Pr(xTβ)L≤Pr(xTβ)≤Pr(xTβ)U]=[F(xTβ)L≤F(xTβ)≤F(xTβ)U]
Concretely this means computing βTx±z∗SE(βTx) and then applying the logit transform to the result to get the lower and upper bounds:
[exTβ−z∗SE(xTβ)1+exTβ−z∗SE(xTβ),exTβ+z∗SE(xTβ)1+exTβ+z∗SE(xTβ),]
The estimated approximate variance of xTβ can be calculated using the covariance matrix of the regression coefficients using
Var(xTβ)=xTΣx
The advantage of this method is that the bounds cannot be outside the range (0,1)
There are several other approaches as well, using the delta method, bootstrapping etc.. which each have their own assumptions, advantages and limits.
Sources and info
My favorite book on this topic is "Applied Linear Statistical Models" by Kutner, Neter, Li, Chapter 14
Otherwise here are a few online sources: