Régression linéaire: * Pourquoi * pouvez-vous partitionner des sommes de carrés?

9

Cet article fait référence à un modèle de régression linéaire bivariée, . J'ai toujours pris la partition de la somme totale des carrés (SSTO) en somme des carrés pour l'erreur (SSE) et somme des carrés pour le modèle (SSR) sur la foi, mais une fois que j'ai vraiment commencé à y penser, je ne comprends pas pourquoi ça marche ... $Y_i = \beta_0 + \beta_1x_i$

La partie que je ne comprends:

$y_i$ : une valeur observée de y

$\bar{y}$ : La moyenne de tous les s observés $y_i$

$\hat{y}_i$ : La valeur ajustée / prédite de y pour une observation donnée x

$y_i - \hat{y}_i$ : résiduel / erreur (si carré et additionné pour toutes les observations, c'est SSE)

$\hat{y}_i - \bar{y}$ : dans quelle mesure la valeur ajustée du modèle diffère de la moyenne (si elle est au carré et additionnée pour toutes les observations, c'est SSR)

$y_i - \bar{y}$ : Dans quelle mesure une valeur observée diffère de la moyenne (si elle est calculée et additionnée pour toutes les observations, il s'agit de SSTO).

Je peux comprendre pourquoi, pour une seule observation, sans quadrature, . Et je peux comprendre pourquoi, si vous voulez additionner des choses à toutes les observations, vous devez les cadrer ou elles totaliseront 0. $(y_i - \bar{y}) = (\hat{y}_i - \bar{y}) + (y_i - \hat{y}_i)$

La partie que je ne comprends pas est pourquoi (par exemple. SSTO = SSR + SSE). Il semble que si vous avez une situation où , alors , pas . Pourquoi n'est-ce pas le cas ici? $(y_i - \bar{y})^2 = (\hat{y}_i - \bar{y})^2 + (y_i - \hat{y}_i)^2$ $A = B + C$ $A^2 = B^2 + 2BC + C^2$ $A^2 = B^2 + C^2$

regression sums-of-squares orthogonal

— bluemouse
source

5

Vous avez omis la sommation dans votre dernier paragraphe. SST = SSR + SSE est une somme sur

, mais votre égalité que vous avez écrite immédiatement avant n'est pas réellement vraie sans le signe de sommation.

i

$i$

— Glen_b -Reinstate Monica

1

Dans votre dernier paragraphe, vous ne voulez pas (par exemple SSTO = SSR + SSE) (par exemple SSTO = SSR + SSE). "eg" est l'abréviation de l'expression latine " exempli gratia " ou "par exemple" en anglais. "ie" est l'abréviation de " id est " et peut être lu en anglais comme "c'est-à-dire".

— Matthew Gunn

9

Il semble que si vous avez une situation où , alors , pas . Pourquoi n'est-ce pas le cas ici? $A = B + C$ $A^2 = B^2 + 2BC + C^2$ $A^2 = B^2 + C^2$

Conceptuellement, l'idée est que parce que et sont orthogonaux (c'est-à-dire perpendiculaires). $BC = 0$ $B$ $C$

Dans le contexte de régression linéaire ici, les résidus sont orthogonales aux prévisions rabaissées . La prévision de la régression linéaire crée une décomposition orthogonale de dans un sens similaire car est une décomposition orthogonale. $\epsilon_i = y_i - \hat{y}_i$ $\hat{y}_i - \bar{y}$ $\mathbf{y}$ $(3,4) = (3,0) + (0,4)$

Version d'algèbre linéaire:

Laisser:

z = [\begin{matrix} y_{1} - \bar{y} \\ y_{2} - \bar{y} \\ \dots \\ y_{n} - \bar{y} \end{matrix}] \hat{z} = [\begin{matrix} {\hat{y}}_{1} - \bar{y} \\ {\hat{y}}_{2} - \bar{y} \\ \dots \\ {\hat{y}}_{n} - \bar{y} \end{matrix}] ϵ = [\begin{matrix} y_{1} - {\hat{y}}_{1} \\ y_{2} - {\hat{y}}_{2} \\ \dots \\ y_{n} - {\hat{y}}_{n} \end{matrix}] = z - \hat{z}

$\mathbf{z} = \begin{bmatrix} y_1 - \bar{y} \\ y_2 - \bar{y}\\ \ldots \\ y_n - \bar{y} \end{bmatrix} \quad \quad \mathbf{\hat{z}} = \begin{bmatrix} \hat{y}_1 - \bar{y} \\ \hat{y}_2 - \bar{y} \\ \ldots \\ \hat{y}_n - \bar{y} \end{bmatrix} \quad \quad \boldsymbol{\epsilon} = \begin{bmatrix} y_1 - \hat{y}_1 \\ y_2 - \hat{y}_2 \\ \ldots \\ y_n - \hat{y}_n \end{bmatrix} = \mathbf{z} - \hat{\mathbf{z}}$

La régression linéaire (avec une constante incluse) décompose en la somme de deux vecteurs: une prévision et un résidu $\mathbf{z}$ $\hat{\mathbf{z}}$ $\boldsymbol{\epsilon}$

z = \hat{z} + ϵ

$\mathbf{z} = \hat{\mathbf{z}} + \boldsymbol{\epsilon}$

Soit désigne le produit scalaire . (Plus généralement, peut être le produit intérieur .) $\langle .,. \rangle$ $\langle X,Y \rangle$ $E[XY]$

\begin{aligned} ⟨ z, z ⟩ & = ⟨ \hat{z} + ϵ, \hat{z} + ϵ ⟩ \\ = ⟨ \hat{z}, \hat{z} ⟩ + 2 ⟨ \hat{z}, ϵ ⟩ + ⟨ ϵ, ϵ ⟩ \\ = ⟨ \hat{z}, \hat{z} ⟩ + ⟨ ϵ, ϵ ⟩ \end{aligned}

$\begin{align*} \langle \mathbf{z} , \mathbf{z} \rangle &= \langle \hat{\mathbf{z}} + \boldsymbol{\epsilon}, \hat{\mathbf{z}} + \boldsymbol{\epsilon} \rangle \\ &= \langle \hat{\mathbf{z}}, \hat{\mathbf{z}} \rangle + 2 \langle \hat{\mathbf{z}},\boldsymbol{\epsilon} \rangle + \langle \boldsymbol{\epsilon},\boldsymbol{\epsilon} \rangle \\ &= \langle \hat{\mathbf{z}}, \hat{\mathbf{z}} \rangle + \langle \boldsymbol{\epsilon},\boldsymbol{\epsilon} \rangle \end{align*}$

Où la dernière ligne découle du fait que (c'est-à-dire que et sont orthogonaux). Vous pouvez prouver que et sont orthogonaux en fonction de la façon dont la régression des moindres carrés ordinaires construit . $\langle \hat{\mathbf{z}},\boldsymbol{\epsilon} \rangle = 0$ $\hat{\mathbf{z}}$ $\boldsymbol{\epsilon} = \mathbf{z}- \hat{\mathbf{z}}$ $\hat{\mathbf{z}}$ $\boldsymbol{\epsilon}$ $\hat{\mathbf{z}}$

$\hat{\mathbf{z}}$ est la projection linéaire de sur le sous-espace défini par la plage linéaire des régresseurs , , etc .... le résiduel est orthogonal à tout ce sous-espace, d'où (qui se situe dans la plage de , , etc ...) est orthogonale à . $\mathbf{z}$ $\mathbf{x}_1$ $\mathbf{x}_2$ $\boldsymbol{\epsilon}$ $\hat{\mathbf{z}}$ $\mathbf{x}_1$ $\mathbf{x}_2$ $\boldsymbol{\epsilon}$

Notez que comme j'ai défini comme produit scalaire, est simplement une autre manière d'écrire (c'est-à-dire SSTO = SSR + SSE) $\langle .,.\rangle$ $\langle \mathbf{z} , \mathbf{z} \rangle = \langle \hat{\mathbf{z}}, \hat{\mathbf{z}} \rangle + \langle \boldsymbol{\epsilon},\boldsymbol{\epsilon} \rangle$ $\sum_i (y_i - \bar{y})^2 = \sum_i (\hat{y}_i - \bar{y})^2 + \sum_i (y_i - \hat{y}_i)^2$

— Matthew Gunn
source

8

Le tout montre que certains vecteurs sont orthogonaux et utilisent alors le théorème de Pythagore.

Considérons la régression linéaire multivariée . Nous savons que l'estimateur OLS est . Considérez maintenant l'estimation $Y = X\beta + \epsilon$ $\hat{\beta} = (X^tX)^{-1}X^tY$

$\hat{Y} = X\hat{\beta} = X(X^tX)^{-1}X^tY = HY$ (la matrice H est aussi appelée matrice "hat")

où est une matrice de projection orthogonale de Y sur . Maintenant nous avons $H$ $S(X)$

$Y - \hat{Y} = Y - HY = (I - H)Y$

où est une matrice de projection sur le complément orthogonal de qui est . Ainsi, nous savons que et sont orthogonaux. $(I-H)$ $S(X)$ $S^{\bot}(X)$ $Y-\hat{Y}$ $\hat{Y}$

Considérons maintenant un sous-modèle $Y = X_0\beta_0 + \epsilon$

où et de même, nous avons l'estimateur OLS et estimons et avec la matrice de projection sur . De même, nous avons que et sont orthogonaux. Et maintenant $X = [X_0 | X_1 ]$ $\hat{\beta_0}$ $\hat{Y_0}$ $H_0$ $S(X_0)$ $Y - \hat{Y_0}$ $\hat{Y_0}$

$\hat{Y} - \hat{Y_0} = HY - H_0Y = HY - H_0HY = (I - H_0)HY$

où encore est une matrice de projection orthogonale sur le complément de qui est . Nous avons donc une orthogonalité de et . Donc, à la fin, nous avons $(I-H_0)$ $S(X_0)$ $S^{\bot}(X_0)$ $\hat{Y} - \hat{Y_0}$ $\hat{Y_0}$

$||Y - \hat{Y}||^2 = ||Y||^2 - ||\hat{Y}||^2 = ||Y - \hat{Y_0}||^2 + ||\hat{Y_0}||^2 - ||\hat{Y} - \hat{Y_0}||^2 - ||\hat{Y_0}||^2$

et enfin $||Y - \hat{Y_0}||^2 = ||Y - \hat{Y}||^2 + ||\hat{Y} - \hat{Y_0}||^2$

Enfin, la moyenne est simplement le si l'on considère le modèle nul . $\bar{Y}$ $\hat{Y_0}$ $Y = \beta_0 + e$

— Łukasz Grad
source

Merci pour votre réponse! Qu'est-ce que S () (comme dans S (X) dans votre message)?

— bluemouse

S (X)

$S(X)$ est un sous-espace généré par les colonnes de la matrice

X

$X$

— Łukasz Grad