Une comparaison des méthodes d'intervalles de confiance sur un exemple d'ISL
Le livre "Introduction to Statistical Learning" de Tibshirani, James, Hastie fournit un exemple à la page 267 d'intervalles de confiance pour le degré de régression logistique polynomiale 4 sur les données salariales . Citant le livre:
Nous modélisons le événement binaire utilisant la régression logistique avec un polynôme de degré 4. La probabilité postérieure ajustée de salaire supérieur à 250 000 $ est indiquée en bleu, avec un intervalle de confiance estimé à 95%.wage>250
Vous trouverez ci-dessous un bref récapitulatif de deux méthodes de construction de tels intervalles ainsi que des commentaires sur la façon de les implémenter à partir de zéro
Intervalles de transformation Wald / Endpoint
- Calculer les limites supérieure et inférieure de l'intervalle de confiance pour la combinaison linéaire (en utilisant le CI de Wald)xTβ
- Appliquez une transformation monotone aux points d'extrémité pour obtenir les probabilités.F(xTβ)
Puisque est une transformation monotone dex T βPr(xTβ)=F(xTβ)xTβ
[Pr(xTβ)L≤Pr(xTβ)≤Pr(xTβ)U]=[F(xTβ)L≤F(xTβ)≤F(xTβ)U]
Concrètement, cela signifie calculer puis appliquer la transformation logit au résultat pour obtenir les bornes inférieure et supérieure:βTx±z∗SE(βTx)
[exTβ−z∗SE(xTβ)1+exTβ−z∗SE(xTβ),exTβ+z∗SE(xTβ)1+exTβ+z∗SE(xTβ),]
Calcul de l'erreur standard
La théorie du maximum de vraisemblance nous dit que la variance approximative de peut être calculée en utilisant la matrice de covariance des coefficients de régression en utilisantxTβΣ
Var(xTβ)=xTΣx
Définissez la matrice de conception et la matrice commeXV
X = ⎡⎣⎢⎢⎢⎢⎢11⋮1x1,1x2,1⋮xn,1……⋱…x1,px2,p⋮xn,p⎤⎦⎥⎥⎥⎥⎥ V = ⎡⎣⎢⎢⎢⎢⎢π^1(1−π^1)0⋮00π^2(1−π^2)⋮0……⋱…00⋮π^n(1−π^n)⎤⎦⎥⎥⎥⎥⎥
où est la valeur de la ème variable pour les ème observations et représente la probabilité prédite pour l'observation .xi,jjiπ^ii
La matrice de covariance peut alors être trouvée comme: et l'erreur standard commeΣ=(XTVX)−1SE(xTβ)=Var(xTβ)−−−−−−−−√
Les intervalles de confiance à 95% pour la probabilité prédite peuvent alors être tracés comme
Intervalles de confiance de la méthode Delta
L'approche consiste à calculer la variance d'une approximation linéaire de la fonction et à l'utiliser pour construire de grands intervalles de confiance d'échantillon.F
Var[F(xTβ^)]≈∇FT Σ ∇F
Où est le gradient et la matrice de covariance estimée. Notez que dans une dimension: ∇Σ
∂F(xβ)∂β=∂F(xβ)∂xβ∂xβ∂β=xf(xβ)
Où est la dérivée de . Cela se généralise dans le cas multivariéfF
Var[F(xTβ^)]≈fT xT Σ x f
Dans notre cas F est la fonction logistique (que nous noterons ) dont la dérivée estπ(xTβ)
π′(xTβ)=π(xTβ)(1−π(xTβ))
Nous pouvons maintenant construire un intervalle de confiance en utilisant la variance calculée ci-dessus.
C.I.=[Pr(xβ^)−z∗Var[π(xβ^)]−−−−−−−−−√≤Pr(xβ^)+z∗Var[π(xβ^)]−−−−−−−−−√]
Sous forme vectorielle pour le cas multivarié
C.I.=[π(xTβ^)±z∗(π(xTβ^)(1−π(xTβ^)))TxT Var[β^] x π(xTβ^)(1−π(xTβ^))]−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−√
- Notez que représente un seul point de données dans , c'est-à-dire une seule ligne de la matrice de conceptionR p + 1 XxRp+1X
Une conclusion ouverte
Un examen des tracés QQ normaux pour les probabilités et les cotes log négatives montre qu'aucun des deux n'est normalement distribué. Cela pourrait-il expliquer la différence?
La source: