Les estimations des coefficients et les intersections dans la régression logistique (et tout GLM) sont obtenues via l' estimation du maximum de vraisemblance (MLE). Ces estimations sont indiquées avec un chapeau sur les paramètres, quelque chose comme θ . Notre paramètre d'intérêt est notée θ 0 et cela est généralement 0 que nous voulons vérifier si le coefficient est différent de 0 ou non. De la théorie asymptotique de MLE, nous savons que la différence entre θ et θ 0 sera approximativement normale de moyenne 0 (détails peuvent être trouvés dans les statistiques mathématiques livre comme Larry Wasserman Toutes les statistiques ). Rappelons que les erreurs types ne sont rien d’autre queθ^θ0θ^θ0Écarts types des statistiques (Sokal et Rohlf écrivent dans leur livre Biometry : "une statistique est l’une des nombreuses quantités statistiques calculées ou estimées", par exemple la moyenne, la médiane, l’écart type, le coefficient de corrélation, le coefficient de régression, ...). Diviser une distribution normale avec une moyenne 0 et un écart type par son écart type produira la distribution normale standard avec une moyenne 0 et un écart type 1. La statistique de Wald est définie comme (par exemple, Wasserman (2006): Statistics , pages 153, 214). -215):
W = ( β - β 0 )σ
ou
W2=(β-β0)2
W=(β^−β0)seˆ(β^)∼N(0,1)
La seconde forme résulte du fait que le carré d'une distribution normale standard est le
χ21-distribution avec 1 degré de liberté (la somme des deux distributions standardcarré normales serait un
χ22-distribution avec 2 degrés de liberté et ainsi de suite).
W2=(β^−β0)2Varˆ(β^)∼χ21
χ21χ22
β0=0
W=β^seˆ(β^)∼N(0,1)
zt
ztzptzVar[β^|X]=σ2(X′X)−1σ2Xσ2σ^2=s2seˆ(βj^)=s2(X′X)−1jj−−−−−−−−−√tt
Y∼Bin(n,p)E(Y)=npVar(Y)=np(1−p)ϕϕ=1ϕ<1ϕ>1ztp-valeurs. Dans R
, regardez ces deux exemples:
Régression logistique
mydata <- read.csv("http://www.ats.ucla.edu/stat/data/binary.csv")
mydata$rank <- factor(mydata$rank)
my.mod <- glm(admit ~ gre + gpa + rank, data = mydata, family = "binomial")
summary(my.mod)
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) -3.989979 1.139951 -3.500 0.000465 ***
gre 0.002264 0.001094 2.070 0.038465 *
gpa 0.804038 0.331819 2.423 0.015388 *
rank2 -0.675443 0.316490 -2.134 0.032829 *
rank3 -1.340204 0.345306 -3.881 0.000104 ***
rank4 -1.551464 0.417832 -3.713 0.000205 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
(Dispersion parameter for binomial family taken to be 1)
z
Régression linéaire normale (MCO)
summary(lm(Fertility~., data=swiss))
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 66.91518 10.70604 6.250 1.91e-07 ***
Agriculture -0.17211 0.07030 -2.448 0.01873 *
Examination -0.25801 0.25388 -1.016 0.31546
Education -0.87094 0.18303 -4.758 2.43e-05 ***
Catholic 0.10412 0.03526 2.953 0.00519 **
Infant.Mortality 1.07705 0.38172 2.822 0.00734 **
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 7.165 on 41 degrees of freedom
tzt
Un autre article lié peut être trouvé ici .