La "pente réelle" dans un modèle linéaire normal vous indique à quel point la réponse moyenne change grâce à une augmentation d'un point de . En supposant une normalité et une variance égales, tous les quantiles de la distribution conditionnelle de la réponse évoluent en conséquence. Parfois, ces hypothèses sont très irréalistes: la variance ou l'asymétrie de la distribution conditionnelle dépendent de et donc, ses quantiles se déplacent à leur propre vitesse lors de l'augmentation dexxx. En QR, vous le verrez immédiatement à partir d'estimations de pente très différentes. Étant donné que l'OLS ne se soucie que de la moyenne (c'est-à-dire du quantile moyen), vous ne pouvez pas modéliser chaque quantile séparément. Là, vous vous fondez entièrement sur l'hypothèse d'une forme fixe de la distribution conditionnelle lorsque vous faites des déclarations sur ses quantiles.
MODIFIER: Intégrer un commentaire et illustrer
Si vous êtes prêt à faire ces hypothèses solides, il n'y a pas grand intérêt à exécuter QR car vous pouvez toujours calculer les quantiles conditionnels via la moyenne conditionnelle et la variance fixe. Les pentes «vraies» de tous les quantiles seront égales à la pente vraie de la moyenne. Dans un échantillon spécifique, il y aura bien sûr des variations aléatoires. Ou vous pourriez même détecter que vos hypothèses strictes étaient fausses ...
Permettez-moi d'illustrer par un exemple en R. Il montre la ligne des moindres carrés (noir) puis en rouge les quantiles modélisés à 20%, 50% et 80% de données simulées selon la relation linéaire suivante
sorte que non seulement la moyenne conditionnelle de dépend de mais aussi de la variance.
y=x+xε,ε∼N(0,1) iid,
yx
- Les droites de régression de la moyenne et de la médiane sont essentiellement identiques en raison de la distribution conditionnelle symétrique. Leur pente est de 1.
- La droite de régression du quantile de 80% est beaucoup plus raide (pente 1,9), tandis que la droite de régression du quantile de 20% est presque constante (pente 0,3). Cela convient bien à la variance extrêmement inégale.
- Environ 60% de toutes les valeurs se trouvent dans les lignes rouges extérieures. Ils forment un intervalle de prévision simple et ponctuel de 60% à chaque valeur de .x
Le code pour générer l'image:
library(quantreg)
set.seed(3249)
n <- 1000
x <- seq(0, 1, length.out = n)
y <- rnorm(n, mean = x, sd = x)
plot(y~x)
(fit_lm <- lm(y~x)) # intercept: 0.02445, slope: 1.04858
abline(fit_lm, lwd = 3)
# quantile cuts
taus <- c(0.2, 0.5, 0.8)
(fit_rq <- rq(y~x, tau = taus))
# tau= 0.2 tau= 0.5 tau= 0.8
# (Intercept) 0.00108228 -0.0005110046 0.001089583
# x 0.29960652 1.0954521888 1.918622442
lapply(seq_along(taus), function(i) abline(coef(fit_rq)[, i], lwd = 2, lty = 2, col = "red"))