Comment calculer l'intervalle de confiance de l'ordonnée à l'origine dans une régression linéaire?
Hypothèses
- Utilisez le modèle de régression simple .yi=α+βxi+εi
- Les erreurs ont une distribution normale conditionnelle aux régresseursϵ|X∼N(0,σ2In)
- Ajuster en utilisant le moindre carré ordinaire
3 procédures pour calculer l'intervalle de confiance sur l'ordonnée à l'origine
Extension Taylor de premier ordre
Votre modèle est avec un écart - type estimé et sur et paramètres et covariance estimée . Vous résolvezY=aX+bσaσbabσab
aX+b=0⇔X=−ba.
Alors l'écart type sur est donné par:σXX
(σXX)2=(σbb)2+(σaa)2−2σabab.
MIB
Voir le code de Marc dans l'encadré à Comment calculer l'intervalle de confiance de l'ordonnée à l'origine dans une régression linéaire? .
CAPITANI-POLLASTRI
CAPITANI-POLLASTRI fournit la fonction de distribution cumulative et la fonction de densité pour le rapport de deux variables aléatoires normales corrélées. Il peut être utilisé pour calculer l'intervalle de confiance de l'ordonnée à l'origine dans une régression linéaire. Cette procédure donne des résultats (presque) identiques à ceux de MIB.
En effet, en utilisant le moindre carré ordinaire et en supposant la normalité des erreurs, (vérifié) et sont corrélés (vérifiés).β^∼N(β,σ2(XTX)−1)β^
La procédure est la suivante:
- obtenir un estimateur OLS pour et .ab
- obtenir la matrice de variance-covariance et extraire, .σa,σb,σab=ρσaσb
- Supposons que et suivent une distribution normale corrélée bivariée, . Ensuite, la fonction de densité et la fonction de distribution cumulative de sont données par CAPITANI-POLLASTRI.abN(a,b,σa,σb,ρ)xintercept=−ba
- Utilisez la fonction de distribution cumulative de pour calculer les quantiles souhaités et définir un intervalle de co-confiance.xintercept=−ba
Comparaison des 3 procédures
Les procédures sont comparées à l'aide de la configuration de données suivante:
- x <- 1:10
- a <- 20
- b <- -2
- y <- a + b * x + rnorm (longueur (x), moyenne = 0, sd = 1)
10000 échantillons différents sont générés et analysés à l'aide des 3 méthodes. Le code (R) utilisé pour générer et analyser se trouve sur: https://github.com/adrienrenaud/stackExchange/blob/master/crossValidated/q221630/answer.ipynb
- MIB et CAPITANI-POLLASTRI donnent des résultats équivalents.
- L'expansion de Taylor de premier ordre diffère considérablement des deux autres méthodes.
- MIB et CAPITANI-POLLASTRI souffrent d'une sous-couverture. Le 68% (95%) ci contient la vraie valeur 63% (92%) du temps.
- L'expansion Taylor de premier ordre souffre d'une couverture excessive. Le 68% (95%) ci contient la vraie valeur 87% (99%) du temps.
Conclusions
La distribution d'ordonnée à l'origine est asymétrique. Elle justifie un intervalle de confiance asymétrique. MIB et CAPITANI-POLLASTRI donnent des résultats équivalents. CAPITANI-POLLASTRI ont une belle justification théorique et cela donne des raisons pour MIB. MIB et CAPITANI-POLLASTRI souffrent d'une sous-couverture modérée et peuvent être utilisés pour définir des intervalles de confiance.
library(boot); sims <- boot(data.frame(x, y), function(d, i) { fit <- lm(y ~ x, data = d[i,]) -coef(fit)[1]/coef(fit)[2] }, R = 1e4); points(quantile(sims$t, c(0.025, 0.975)), c(0, 0))
. Pour les intervalles de prédiction inverse, le fichier d'aide dechemCal:::inverse.predict
donne la référence suivante qui pourrait également aider à dériver un IC: Massart, LM, Vandenginste, BGM, Buydens, LMC, De Jong, S., Lewi, PJ, Smeyers-Verbeke, J. (1997 ) Manuel de chimiométrie et de qualimétrie: partie A, p. 200