Forme de l'intervalle de confiance pour les valeurs prédites dans la régression linéaire

69

J'ai remarqué que l'intervalle de confiance pour les valeurs prédites dans une régression linéaire tend à être étroit autour de la moyenne du prédicteur et de la graisse autour des valeurs minimale et maximale du prédicteur. Ceci peut être vu dans les graphiques de ces 4 régressions linéaires:

entrez la description de l'image ici

Je pensais au départ que c'était parce que la plupart des valeurs des prédicteurs étaient concentrées autour de la moyenne du prédicteur. Cependant, j’ai alors remarqué que le milieu étroit de l’intervalle de confiance se produirait même si de nombreuses valeurs de étaient concentrées autour des extrêmes du prédicteur, comme dans la régression linéaire inférieure gauche, où de nombreuses valeurs du prédicteur sont concentrées autour du minimum de le prédicteur.

Est-ce que quelqu'un peut expliquer pourquoi les intervalles de confiance pour les valeurs prédites dans une régression linéaire ont tendance à être étroits au milieu et gras aux extrêmes?

— luciano
source

86

Je vais en discuter de manière intuitive.

Les intervalles de confiance et les intervalles de prévision dans la régression tiennent compte du fait que l’interception et la pente sont incertaines - vous estimez les valeurs à partir des données, mais les valeurs de population peuvent être différentes (si vous prenez un nouvel échantillon, vous obtiendrez une estimation différente. valeurs).

$(\bar x, \bar y)$ $y= a + b(x-\bar x)$ $\hat a = \bar y$

$(\bar x, \bar y)$

$\pm$

entrez la description de l'image ici

$\bar{x},\bar{y}$

$(\bar x, \bar y)$ $x$

entrez la description de l'image ici

$\pm$

$\bar x$

C'est l'intuition.

Maintenant, si vous voulez, on peut envisager un peu d'algèbre (mais ce n'est pas indispensable):

C'est en fait la racine carrée de la somme des carrés de ces deux effets - vous pouvez le voir dans la formule de l'intervalle de confiance. Construisons les morceaux:

$a$ $b$ $\sigma /\sqrt{n}$ $a$ $y$ $x$ $\bar x$

$b$ $a$ $\sigma/\sqrt{\sum_{i=1}^n (x_i-\bar{x})^2}$ $x^*$ $x^*-\bar x$ $(x^*-\bar x)\cdot\sigma/\sqrt{\sum_{i=1}^n (x_i-\bar{x})^2}$

$y= a + b(x-\bar x)$ $a$ $b$

$\sqrt{(\sigma /\sqrt{n})^2+ \left[(x^*-\bar x)\cdot\sigma/\sqrt{\sum_{i=1}^n (x_i-\bar{x})^2}\right]^2 }$

$x^*$

$\sigma\sqrt{\frac{1}{n}+ \frac{(x^*-\bar x)^2}{\sum_{i=1}^n (x_i-\bar{x})^2} }$

$x^*$ $\bar x$

[Avec les intervalles de prédiction, il y a aussi la variation de position due à la variabilité du processus; cela ajoute un autre terme qui déplace les limites vers le haut et vers le bas, ce qui élargit beaucoup le champ d'application et, comme ce terme domine généralement la somme sous la racine carrée, la courbure est beaucoup moins prononcée.]

— Glen_b
source

Merci Glen_b c'est très intuitif. Cela ne m’était pas venu à l’esprit, c’est ce que représente l’intervalle de confiance.

— Luciano

1

La réponse acceptée apporte en effet l'intuition nécessaire. Il ne manque que la visualisation de la combinaison des incertitudes linéaires et angulaires, ce qui renvoie très bien aux intrigues de la question. Alors voilà. Appelons a'et b'les incertitudes de a, et b, respectivement, les quantités communément renvoyées par n’importe quel logiciel de statistiques populaire. Ensuite, en plus du meilleur ajustement a*x + b, nous avons quatre lignes possibles à tracer (dans ce cas, 1 covariable x):

(a+a')*x + b+b'
(a-a')*x + b-b'
(a+a')*x + b-b'
(a-a')*x + b+b'

Ce sont les quatre lignes collectées dans le graphique ci-dessous. La ligne noire épaisse au milieu représente le meilleur ajustement sans incertitude. Donc, pour dessiner les ombrages "hyperboliques", il faut prendre les valeurs maximales et minimales de ces quatre lignes combinées, qui sont en fait quatre segments de ligne, pas de courbes (je me demande à quel point ces tracés de fence dessinent exactement la courbe, ne semble pas tout précis à moi).

J'espère que cela ajoute quelque chose à la réponse déjà sympathique de @Glen_b.

— Ouranos
source