Résumé: Existe - t-il une théorie statistique pour soutenir l'utilisation de la distribution (avec des degrés de liberté basés sur la déviance résiduelle) pour les tests des coefficients de régression logistique, plutôt que la distribution normale standard?
Il y a quelque temps, j'ai découvert qu'en ajustant un modèle de régression logistique dans SAS PROC GLIMMIX, sous les paramètres par défaut, les coefficients de régression logistique sont testés en utilisant une distribution plutôt que la distribution normale standard. Autrement dit, GLIMMIX signale une colonne avec le rapport (que j'appellerai dans le reste de cette question ), mais indique également une colonne "degrés de liberté", ainsi qu'une valeur basée sur l'hypothèse d'une distribution pour avec des degrés de liberté basés sur la déviance résiduelle - c'est-à-dire, degrés de liberté = nombre total d'observations moins nombre de paramètres. Au bas de cette question, je fournis du code et des sorties en R et SAS pour démonstration et comparaison.
Cela m'a dérouté, car je pensais que pour les modèles linéaires généralisés tels que la régression logistique, il n'y avait pas de théorie statistique pour soutenir l'utilisation de la distribution dans ce cas. Au lieu de cela, je pensais que ce que nous savions sur cette affaire était que
- est "approximativement" normalement distribué;
- cette approximation peut être médiocre pour de petits échantillons;
- néanmoins, on ne peut pas supposer que a une distribution comme nous pouvons le supposer dans le cas d'une régression normale.t
Maintenant, à un niveau intuitif, il me semble raisonnable que si est distribué normalement normalement, il pourrait en fait avoir une distribution qui est fondamentalement " like", même si ce n'est pas exactement . Donc, l'utilisation de la distribution ici ne semble pas folle. Mais ce que je veux savoir, c'est ce qui suit:t t t
- Existe-t-il en fait une théorie statistique montrant que suit vraiment une distribution dans le cas de la régression logistique et / ou d'autres modèles linéaires généralisés?t
- S'il n'y a pas une telle théorie, existe-t-il au moins des articles montrant que l'hypothèse d'une distribution de cette manière fonctionne aussi bien, ou peut-être même mieux que, l'hypothèse d'une distribution normale?
Plus généralement, y a-t-il un support réel pour ce que fait GLIMMIX ici autre que l'intuition qu'il est probablement fondamentalement sensé?
Code R:
summary(glm(y ~ x, data=dat, family=binomial))
Sortie R:
Call:
glm(formula = y ~ x, family = binomial, data = dat)
Deviance Residuals:
Min 1Q Median 3Q Max
-1.352 -1.243 1.025 1.068 1.156
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) 0.22800 0.06725 3.390 0.000698 ***
x -0.17966 0.10841 -1.657 0.097462 .
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
(Dispersion parameter for binomial family taken to be 1)
Null deviance: 1235.6 on 899 degrees of freedom
Residual deviance: 1232.9 on 898 degrees of freedom
AIC: 1236.9
Number of Fisher Scoring iterations: 4
Code SAS:
proc glimmix data=logitDat;
model y(event='1') = x / dist=binomial solution;
run;
Sortie SAS (éditée / abrégée):
The GLIMMIX Procedure
Fit Statistics
-2 Log Likelihood 1232.87
AIC (smaller is better) 1236.87
AICC (smaller is better) 1236.88
BIC (smaller is better) 1246.47
CAIC (smaller is better) 1248.47
HQIC (smaller is better) 1240.54
Pearson Chi-Square 900.08
Pearson Chi-Square / DF 1.00
Parameter Estimates
Standard
Effect Estimate Error DF t Value Pr > |t|
Intercept 0.2280 0.06725 898 3.39 0.0007
x -0.1797 0.1084 898 -1.66 0.0978
En fait, j'ai d'abord remarqué cela sur les modèles de régression logistique à effets mixtes dans PROC GLIMMIX, et j'ai découvert plus tard que GLIMMIX le faisait également avec la régression logistique "vanille".
n Je comprends que dans l'exemple ci-dessous, avec 900 observations, la distinction ici ne fait probablement aucune différence pratique. Ce n'est pas vraiment mon point. Ce ne sont que des données que j'ai rapidement inventées et j'ai choisi 900 car c'est un beau chiffre. Cependant, je m'interroge un peu sur les différences pratiques avec de petits échantillons, par exemple <30.
PROC LOGISTIC
en SAS produit les tests habituels de type wald basés sur le score. Je me demande ce qui a provoqué le changement dans la nouvelle fonction (sous-produit de la généralisation?).