Les intervalles de confiance pour les coefficients de régression linéaire devraient-ils être basés sur la distribution normale ou

Ayons un modèle linéaire, par exemple juste une simple ANOVA:

# data generation
set.seed(1.234)                      
Ng <- c(41, 37, 42)                    
data <- rnorm(sum(Ng), mean = rep(c(-1, 0, 1), Ng), sd = 1)      
fact <- as.factor(rep(LETTERS[1:3], Ng)) 

m1 = lm(data ~ 0 + fact)
summary(m1)

Le résultat est le suivant:

Call:
lm(formula = data ~ 0 + fact)

Residuals:
     Min       1Q   Median       3Q      Max 
-2.30047 -0.60414 -0.04078  0.54316  2.25323 

Coefficients:
      Estimate Std. Error t value Pr(>|t|)    
factA  -0.9142     0.1388  -6.588 1.34e-09 ***
factB   0.1484     0.1461   1.016    0.312    
factC   1.0990     0.1371   8.015 9.25e-13 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 

Residual standard error: 0.8886 on 117 degrees of freedom
Multiple R-squared: 0.4816,     Adjusted R-squared: 0.4683 
F-statistic: 36.23 on 3 and 117 DF,  p-value: < 2.2e-16

J'essaie maintenant deux méthodes différentes pour estimer l'intervalle de confiance de ces paramètres

c = coef(summary(m1))

# 1st method: CI limits from SE, assuming normal distribution
cbind(low = c[,1] - qnorm(p = 0.975) * c[,2], 
    high = c[,1] + qnorm(p = 0.975) * c[,2])

# 2nd method
confint(m1)

Des questions:

Quelle est la distribution des coefficients de régression linéaire estimés? Normal ou ? $t$
Pourquoi les deux méthodes donnent-elles des résultats différents? En supposant une distribution normale et une SE correcte, je m'attendrais à ce que les deux méthodes aient le même résultat.

Merci beaucoup!

données ~ 0 + fait

MODIFIER après une réponse :

La réponse est exacte, cela donnera exactement le même résultat que confint(m1)!

# 3rd method
cbind(low = c[,1] - qt(p = 0.975, df = sum(Ng) - 3) * c[,2], 
    high = c[,1] + qt(p = 0.975, df = sum(Ng) - 3) * c[,2])

r regression confidence-interval

— Curieuse
source

en relation: stats.stackexchange.com/questions/111559/…

— Curieux

(1) Lorsque les erreurs sont normalement distribués et leur variance est pas connue, a une-distribution sous l'hypothèse nulle queest le véritable coefficient de régression. La valeur par défaut dansest de tester, donc lesstatistiquesrapportées sont juste

\frac{\hat{β} - β_{0}}{s e (\hat{β})}

$\frac{\hat{\beta} - \beta_0}{{\rm se}(\hat{\beta})}$

t

$t$

β_{0}

$\beta_0$ R

β_{0} = 0

$\beta_0 = 0$

t

$t$

\frac{\hat{β}}{s e (\hat{β})}

$\frac{\hat{\beta}}{{\rm se}(\hat{\beta})}$

Notez que, dans certaines conditions de régularité, la statistique ci-dessus est toujours distribuée normalement asymptotiquement , que les erreurs soient normales ou que la variance d'erreur soit connue.

(2) La raison pour laquelle vous obtenez des résultats différents est que les centiles de la distribution normale sont différents des centiles de la distribution . Par conséquent, le multiplicateur que vous utilisez devant l'erreur standard est différent, ce qui donne à son tour des intervalles de confiance différents. $t$

Plus précisément, rappelez-vous que l'intervalle de confiance utilisant la distribution normale est

\hat{β} \pm z_{α / 2} \cdot s e (\hat{β})

$\hat{\beta} \pm z_{\alpha/2} \cdot {\rm se}(\hat{\beta})$

où est le quantile de la distribution normale. Dans le cas standard d'un intervalle de confiance à , et . L'intervalle de confiance basé sur le $z_{\alpha/2}$ $\alpha/2$ $95\%$ $\alpha = .05$ $z_{\alpha/2} \approx 1.96$ $t$

\hat{β} \pm t_{α / 2, n - p} \cdot s e (\hat{β})

$\hat{\beta} \pm t_{\alpha/2,n-p} \cdot {\rm se}(\hat{\beta})$

$t_{\alpha/2,n-p}$ $t$ $n-p$ $n$ $p$ $n$ $t_{\alpha/2,n-p}$ $z_{\alpha/2}$

$t$ $5$ $300$ $p=1$ $t$ $z$

enter image description here

— Macro
source

Oui!! Beau travail !! (+1)

— gui11aume

Macro, merci pour la réponse. Mais: vous parlez de la distribution des statistiques T, alors que je vous ai posé la question de la distribution du coefficient de régression. Je crois comprendre que le coefficient de régression est une distribution caractérisée par sa moyenne (l'estimation du coefficient) et son erreur standard. J'ai posé des questions sur cette distribution, pas sur la distribution des statistiques de test. Je pourrais manquer quelque chose, alors essayez d'expliquer de manière plus évidente :) Merci

— Curieux

\frac{\hat{β} - β_{0}}{s e (\hat{β})}

$\frac{ {\hat \beta}−β_{0}}{{\rm se}(\hat β)}$

t

$t$

\hat{β}

$\hat β$

t

$t$

β_{0}

$β_0$

s e (\hat{β})

${\rm se}(\hat β)$

\hat{β}

$\hat β$

Vous avez parfaitement raison! Cela donnera exactement le même résultat que confint(m1), même pour de petits échantillons! cbind(low = c[,1] - qt(p = 0.975, df = sum(Ng) - 3) * c[,2], high = c[,1] + qt(p = 0.975, df = sum(Ng) - 3) * c[,2])

— Curieux

\hat{β}

$\hat{\beta}$

\hat{β} - β_{0}

$\hat{\beta}-\beta_0$

β_{0}

$\beta_0$

t

$t$