Pourquoi la régression concerne-t-elle la variance?

À la page 2, il indique:

"Quelle part de la variance des données s'explique par un modèle de régression donné?"

"L'interprétation de la régression concerne la moyenne des coefficients; l'inférence concerne leur variance."

J'ai lu de telles déclarations à plusieurs reprises, pourquoi nous soucierions-nous de "quelle part de la variance dans les données est expliquée par le modèle de régression donné?" ... plus précisément, pourquoi "variance"?

regression variance interpretation

— Luna
source

"[V] ariance" par opposition à quoi, l'écart-type? De quoi pensez-vous que nous devrions nous préoccuper dans la régression? Quels sont vos objectifs typiques dans la construction d'un modèle de régression?

— gung - Rétablir Monica

La variance a des unités différentes de la quantité modélisée, j'ai donc toujours eu du mal à interpréter la "proportion de variance expliquée par le modèle".

— vole

Réponses:

pourquoi nous soucierions-nous de "quelle part de la variance des données est expliquée par le modèle de régression donné?"

Pour y répondre, il est utile de réfléchir à ce que signifie exactement un certain pourcentage de la variance à expliquer par le modèle de régression.

Laissez $Y_{1}, ..., Y_{n}$ est la variable de résultat. La variance d'échantillon habituelle de la variable dépendante dans un modèle de régression est Soit maintenantla prédiction debasée sur un linéaire des moindres carrés modèle de régression avec valeurs prédictives. Comme démontréici, cette variance ci-dessus peut être partitionnée comme:

\frac{1}{n - 1} \sum_{i = 1}^{n} (Y_{i} - \bar{Y})^{2}

$\frac{1}{n-1} \sum_{i=1}^{n} (Y_i - \overline{Y})^2$

{\hat{Y}}_{i} \equiv \hat{f} (X_{i})

$\widehat{Y}_i \equiv \widehat{f}({\boldsymbol X}_i)$

Y_{i}

$Y_i$

X_{i}

${\boldsymbol X}_i$

\frac{1}{n - 1} \sum_{i = 1}^{n} (Y_{i} - \bar{Y})^{2} = \underset{r e s i d u a l v a r i a n c e}{\underset{⏟}{\frac{1}{n - 1} \sum_{i = 1}^{n} (Y_{i} - {\hat{Y}}_{i})^{2}}} + \underset{e x p l a i n e d v a r i a n c e}{\underset{⏟}{\frac{1}{n - 1} \sum_{i = 1}^{n} ({\hat{Y}}_{i} - \bar{Y})^{2}}}

$\frac{1}{n-1} \sum_{i=1}^{n} (Y_i - \overline{Y})^2 = \underbrace{\frac{1}{n-1} \sum_{i=1}^{n} (Y_i - \widehat{Y}_i)^2}_{{\rm residual \ variance}} + \underbrace{\frac{1}{n-1} \sum_{i=1}^{n} (\widehat{Y}_i - \overline{Y})^2}_{{\rm explained \ variance}}$

Dans la régression des moindres carrés, la moyenne des valeurs prédites est , donc la variance totale est égale à la différence quadratique moyenne entre les valeurs observées et prédites (variance résiduelle) plus la variance d'échantillon des prédictions elles-mêmes (expliquées variance), qui ne sont qu'une fonction des s . Par conséquent, la variance "expliquée" peut être considérée comme la variance de qui est attribuable à la variation de . La proportion de la variance de qui est "expliquée" (c'est-à-dire la proportion de variation de qui est attribuable à la variation de $\overline{Y}$ ${\boldsymbol X}$ $Y_i$ ${\boldsymbol X}_i$ $Y_i$ $Y_i$ ${\boldsymbol X}_i$ ) est parfois appelé . $R^2$

Maintenant, nous utilisons deux exemples extrêmes pour expliquer pourquoi cette décomposition de la variance est importante:

(1) Les prédicteurs n'ont rien à voir avec les réponses . Dans ce cas, le meilleur prédicteur non biaisé (dans le sens des moindres carrés) pour est . Par conséquent, la variance totale de est juste égale à la variance résiduelle et n'est pas liée à la variance des prédicteurs . $Y_i$ $\widehat{Y}_i = \overline{Y}$ $Y_i$ ${\boldsymbol X}_i$
(2) Les prédicteurs sont parfaitement liés linéairement aux prédicteurs . Dans ce cas, les prédictions sont exactement correctes et . Il n'y a donc pas de variance résiduelle et toute la variance du résultat est la variance des prédictions elles-mêmes, qui ne sont qu'une fonction des prédicteurs. Par conséquent, toute la variance du résultat est simplement due à la variance des prédicteurs . $\widehat{Y}_i = Y_i$ ${\boldsymbol X}_i$

Les situations avec des données réelles se situent souvent entre les deux extrêmes, de même que la proportion de variance qui peut être attribuée à ces deux sources. Plus il y a de "variance expliquée" - c.-à-d. Plus la variation de est due à la variation de - meilleures sont les prédictions (c'est-à-dire plus la «variance résiduelle» est), ce qui est une autre façon de dire que le modèle des moindres carrés s’adapte bien. $Y_i$ ${\boldsymbol X}_i$ $\widehat{Y}_{i}$

— Macro
source

C'est comme ma réponse mais peut-être un peu mieux expliqué. Je vois aussi une critique possible qui aurait pu être mentionnée, c'est que j'aurais dû écrire la variation relative à la moyenne de Y.

— Michael R. Chernick

@MichaelChernick, oui, mais dans la régression des moindres carrés (dont je pense que l'OP parle sur la base des diapositives liées), la moyenne des valeurs prédites est égale à la moyenne des s, vous pouvez donc simplement l'appeler la variance d'échantillon de la prévisions.

Y

$Y$

— Macro

J'ai apporté la modification à ma réponse car Yb est nécessaire pour que la décomposition de la variance fonctionne correctement.

— Michael R. Chernick

Oui, il était clair pour moi qu'elle faisait référence à la régression des moindres carrés. Une grande partie de ce que vous avez écrit ne fait que répéter ce que j'ai dit légèrement différemment. Je t'ai quand même donné un +1.

— Michael R. Chernick

Macro, mon point était que cette décomposition ne se produit que si et la "régression" implique donc intrinsèquement une projection orthogonale sur un espace contenant le vecteur constant. Notez que nous pouvons facilement "casser" cette décomposition en supprimant simplement le vecteur constant de notre modèle, ce qui semble en conflit avec votre commentaire le plus récent.

⟨ y - \hat{y}, \hat{y} - \bar{y} 1 ⟩ = 0

$\langle \mathbf y - \hat {\mathbf y}, \hat{\mathbf{y}} - \bar{y} \mathbf{1} \rangle = 0$

— cardinal

Je ne peux pas courir avec les gros chiens des statistiques qui ont répondu avant moi, et peut-être que ma pensée est naïve, mais je regarde les choses de cette façon ...

Imaginez que vous êtes dans une voiture et que vous descendez la route et que vous tournez le volant à gauche et à droite et que vous appuyez frénétiquement sur la pédale d'accélérateur et les freins. Pourtant, la voiture se déplace en douceur, sans être affectée par vos actions. Vous soupçonneriez immédiatement que vous n'étiez pas dans une vraie voiture, et peut-être que si nous regardions attentivement, nous déterminerions que vous êtes en balade à Disney World. (Si vous étiez dans une vraie voiture, vous courriez un danger mortel, mais n'y allons pas.)

D'un autre côté, si vous conduisiez sur la route dans une voiture et que vous tourniez légèrement le volant à gauche ou à droite, la voiture bougeait immédiatement, le fait de coller les freins entraînait une forte décélération, tout en appuyant sur la pédale d'accélérateur vous renvoyait dans le siège. Vous pourriez penser que vous étiez dans une voiture de sport haute performance.

En général, vous rencontrez probablement quelque chose entre ces deux extrêmes. La mesure dans laquelle vos entrées (direction, freins, gaz) affectent directement le mouvement de la voiture vous donne un indice quant à la qualité de la voiture. C'est-à-dire que plus la variance de mouvement de votre voiture qui est liée à vos actions est meilleure, et plus la voiture se déplace indépendamment de votre contrôle, plus la voiture est mauvaise.

De la même manière, vous parlez de créer un modèle pour certaines données (appelons ces données ), basé sur d'autres ensembles de données (appelons-les ). Si ne varie pas, c'est comme une voiture qui ne bouge pas et il n'y a vraiment aucun intérêt à discuter si la voiture (modèle) fonctionne bien ou non, nous supposerons donc que varie. $y$ $x_1, x_2, ..., x_i$ $y$ $y$

Tout comme la voiture, un modèle de bonne qualité aura une bonne relation entre les résultats variant et les entrées variant. Contrairement à une voiture, les ne reflètent pas nécessairement la cause changer, mais si le modèle va être utile le besoin de changement dans une relation étroite avec . En d'autres termes, les expliquent une grande partie de la variance de . $y$ $x_i$ $x_i$ $y$ $x_i$ $y$ $x_i$ $y$

PS Je n'ai pas pu trouver d'analogie avec Winnie l'Ourson, mais j'ai essayé.

PPS [EDIT:] Notez que je réponds à cette question particulière. Ne soyez pas confus en pensant que si vous représentez 100% de la variance, votre modèle fonctionnera à merveille. Vous devez également penser au sur-ajustement, où votre modèle est si flexible qu'il s'adapte très étroitement aux données de formation - y compris ses bizarreries et bizarreries aléatoires. Pour utiliser l'analogie, vous voulez une voiture qui a une bonne direction et de bons freins, mais vous voulez qu'elle fonctionne bien sur la route, pas seulement sur la piste d'essai que vous utilisez.

— Wayne
source