J'essaie de comprendre l'origine de la forme incurvée des bandes de confiance associées à une régression linéaire MLS et son lien avec les intervalles de confiance des paramètres de régression (pente et intersection), par exemple (avec R):
require(visreg)
fit <- lm(Ozone ~ Solar.R,data=airquality)
visreg(fit)
Il semble que la bande soit liée aux limites des lignes calculées avec l'interception à 2,5% et la pente de 97,5%, ainsi qu'avec l'interception à 97,5% et la pente de 2,5% (bien que pas tout à fait):
xnew <- seq(0,400)
int <- confint(fit)
lines(xnew, (int[1,2]+int[2,1]*xnew))
lines(xnew, (int[1,1]+int[2,2]*xnew))
Ce que je ne comprends pas, ce sont deux choses:
- Qu'en est-il de la combinaison de la pente de 2,5% et de l'interception de 2,5% ainsi que de la pente de 97,5% et de l'interception de 97,5%? Cela donne des lignes qui sont clairement en dehors de la bande tracée ci-dessus. Peut-être que je ne comprends pas la signification d'un intervalle de confiance, mais si dans 95% des cas, mes estimations se situent dans l'intervalle de confiance, cela semble être un résultat possible?
- Qu'est-ce qui détermine la distance minimale entre les limites supérieure et inférieure (c'est-à-dire près du point où les deux lignes ajoutées au-dessus de l'interception)?
Je suppose que les deux questions se posent parce que je ne sais pas / ne comprends pas comment ces bandes sont réellement calculées.
Comment puis-je calculer les limites supérieure et inférieure en utilisant les intervalles de confiance des paramètres de régression (sans s'appuyer sur Predict () ou une fonction similaire, c'est-à-dire à la main)? J'ai essayé de déchiffrer la fonction Predict.lm dans R, mais le codage me dépasse. J'apprécierais toute indication de littérature pertinente ou explication appropriée pour les débutants en statistiques.
Merci.